-
生物通官微
陪你抓住生命科技
跳动的脉搏
从HiFi read 看 SMRT测序技术的准确性
【字体: 大 中 小 】 时间:2020年05月29日 来源:
编辑推荐:
对于运用测序技术解决科学问题的研究人员而言,测序结果的准确性至关重要。然而如何确定测序结果的准确性,则是一个难题,更别说在各个测序平台之间进行对比和取舍。作为以长读长测序技术为显著特点的第三代单分子测序技术,其准确性又如何呢?
对于运用测序技术解决科学问题的研究人员而言,测序结果的准确性至关重要。然而如何确定测序结果的准确性,则是一个难题,更别说在各个测序平台之间进行对比和取舍。准确性在不同技术间不仅有差异,在基因组的不同区域,特别是本身就难以读取的区域,更是存在着巨大的差异。作为以长读长测序技术为显著特点的第三代单分子测序技术,其准确性又如何呢?
究竟是哪一种测序的准确性?
读取精度 & 一致性准确性
DNA测序技术中,通常有两种准确性:读取精度和一致性准确性。读取精度是DNA测序技术进行单个碱基读取时固有的错误率。以目前主要的测序技术来看,传统的长读长测序的读取精度大约在90%以上,而短读长测序,以及我们着重介绍的HiFi read,它们的测序精度则在99%(Q20)以上。
而一致性准确率,则是通过对来自一组数据中多条reads的合并后的reads来进行评判。以SMRT测序技术为例,通过不同reads的合并,能够有效的消灭随机错误。增加测序深度(Coverage),也就意味着更多的reads参与了合并,用于生成更为准确的一致性序列。然而来自不同reads之间生成一致性序列的方式依然有一定的局限性。例如一致性序列生成依赖于复杂而繁琐的算法,往往消耗大量的时间用于运算。并且对于那些本身就存在系统性误差的测序技术而言,合并则会累积错误,这样的错误即使通过增加Coverage,也十分难以消除。
图1:HiFi reads提供了检测单核苷酸变异体所需的准确性,同时提高了可映射性并允许在没有系统偏好性的情况下进行定相。
举个例子,过去我们常常用高精度的NGS短reads来对其他平台获得的长reads进行打磨(Polish),特别是针对具有系统性误差的超长reads,用NGS reads来进行polish都是非常常见的操作。但由于读长悬殊,GC/AT偏好性的影响,不是所有的短reads都能**比对到长reads上,这本身就限制了打磨精度的有效性。具有系统误差的超长reads合并同样也具有系统误差的NGS短reads,polish的效果将大打折扣,而NGS无法覆盖的区域则也无法完成polish过程。
图2:NGS reads对ONT的超长reads进行polish,质量提升效果并不理想
Wenger, Aaron M., et al. "Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome.." Nature Biotechnology 37.10 (2019): 1155-1162.
因此,真正获得一致性序列,还是应该从无系统误差的高准确度读取开始,这一起点也将大大简化一致性序列的运算过程。例如PacBio SMRT测序技术独有的HiFi read,通过环形测序生成的一系列subreads来进行自我打磨,从而获得测序精度在99%以上的高质量长读长HiFi reads。不仅提供了更为准确的序列信息,在后续的运算方面,分析的流程更为简单,消耗的时间也大大减少。
图3:HiFi reads是如何生成的
测序精度如何影响测序数据?
1. 影响了覆盖度的均一性——Coverage Uniformity
我们都知道,对于一些测序平台来说,基因组中的某些区域往往就是一个无法读取的“黑洞”。例如具有大量重复序列的端粒区域,富含AT或者GC的区域都在测序技术上受到很大的限制。再例如具有回文序列和发夹结构,在测序流程中面临着变性等挑战性的技术难点。
点击了解:长读长测序的“灾难性错误”,何以准确地检测基因组结构变异?
与以往所不同的是,PacBio测序技术采用了无扩增、无变性的方式来避免上述提到的所有问题。面对过去难以读取的区域,能够毫无偏差的产生准确的结果。即使是在其他平台相当棘手的基因组区域中,也能有很好的表现。
图4:来自SMRT测序技术的HiFi read呈现出无偏好性的均一覆盖度
2. 影响reads的可映射性——Mappability
基因组组装的准确率大于每个碱基读取的精度。如果reads在组装中没有完成正确的排序,或是确定方向,那即使是完美的reads也有可能导致准确度不良。因此组装过程中reads放在何处则成为可映射性。
仅包含一个大结构元件片段的reads,或包含高度重复的序列的reads,往往难以完成比对,无法映射到参考基因组中的不同位置。这就是NGS短读长reads的症结所在,由于读长短,无法包含足够独特的序列以锚定其准确的位置。然而,同样是高准确度的HiFi reads则具有几十kb的长读长,足以跨越独特的序列结构,可以在组装中完成更好的映射。
图5:HiFi reads具有更大的范围,准确的跨越重复区域,从而提高了可映射性。
3. 影响定相——Phasing
当我们的研究对象为二倍体或者多倍体时,定相(Phasing)就意味着每条染色体都有着不同的副本,我们称之为单倍型(Haplotype)。在准确度足够的情况下,测序结果即可支持单碱基变异(SNV)的分析,其中杂合基因座表明了同源染色体对之间的序列差异。 这就是传统的低精度长读长测序的技术瓶颈,读取所得的差异无法与参考数据相比对,判断差异是来自于变异,还是本身就是读取时产生的错误。
图6:定相涉及分离每个染色体的父/母遗传副本
点击了解:SMRT 测序助力发现PIK3CA基因中的顺式双突变增加肿瘤对PI3Ka激酶抑制剂的敏感性
尽管获取phasing信息也能够通过对父本母本测序来完成,但如果我们研究的对象是来自野外的物种,那采用高精度的长读长测序技术——HiFi测序则容易得多。总的来说,定相和变异的检测对数据质量提出了更高的要求,我们需要更完整的等位基因信息,这对疾病研究、作物改良,进化分析等都非常的重要。在诸多的测序技术中,PacBio SMRT测序技术独有的HiFi read能够以足够高的测序精度,在读长几十kb的范围内,向研究人员呈现基因组中的包括SNV在内的几乎所有变异的信息,进而锁定更长范围的单倍型。目前,这一方法所达到的结果,为其他测序方法无法企及。相信随着基因组学研究的迅速发展,序列的准确性将变得更为重要。而HiFi read这一兼顾了高准确度与长读长的测序方法,能够以更为简化的数据形式,为研究人员带来更多更为准确且有价值的信息。