访谈:深入3000bp测序平均读长的单分子实时测序[新品推荐]

【字体: 时间:2011年12月01日 来源:生物通

编辑推荐:

  全球首个第三代测序平台——PacBio RS单分子实时测序系统自今年4月推出以来,受到了很多研究者的关注。据悉,Pacific将会在明年初发布新版本C2试剂,届时该系统的平均读长将提升至2500-3000 bp!大家除了被其长读长所吸引之外,也非常关心PacBio RS的准确性、速度、可扩展性和费用,以及它会在目前呈三国鼎立之势的测序市场中扮演什么样的角色。为此,生物通特邀了PacBio RS中国代理——基因有限公司专门负责PacBio的技术专家,就大家普遍关心的这些问题进行了比较深入的探讨。

前言

测序技术已成为当今生命科学研究中发展最快的领域之一,其技术更新速度之快,用“日新月异”一词来形容也不为过。全球首个第三代测序平台——PacBio RS单分子实时测序系统自今年4月底推出,受到了很多研究者的关注。Pacific Biosciences预计将在明年一季度正式发布PacBio RS的新版本C2试剂,届时该系统的平均读长将从现在的1300 bp骤然提升至2500-3000 bp!最长读长可超过10000bp。令人惊叹的数字!经典的Sanger测序长度也就是1200bp左右,已难以匹敌,新一代测序(NGS,即二代测序)就更是望尘莫及啦。

短读长之困

风起云涌的新一代测序(NGS)市场三国鼎立,三大平台你追我赶,在测序速度和单次运行能获取的数据量上不断刷新记录,精彩纷呈,但其共同的短板也非常明显——序列读长太短——仅100-200bp的读长相比庞大的基因组,使得完成拼接工作变得无比艰巨,不少用户虽然获得了大量的测序数据,测序覆盖深度达到了几十倍甚至上百倍,但仍然没法完成基因组的拼接。对于新物种来说,往往还需要传统的Sanger测序先做scaffold。

今年罗氏454平台通过升级达到平均读长500bp以上,最长可达到1000bp,因此一些顶级研究院在做de novo测序时更倾向于用454做scaffold,再配合其他速度更快的NGS平台完成后续的测序工作,以求提高数据处理速度。

关于单分子实时测序的各种疑问

第三代单分子实时测序技术自问世以来就备受关注,有关其工作原理,生物通早在去年的ebiotech期刊新一代测序专辑中已有文章介绍过( 纵观第三代测序之Pacific Biosciences http://www.ebiotrade.com/newsf/2010-10/20101014173036143.htm)。C2试剂对平均读长大幅提升则在“第三代测序PacBioRS升级(http://www.ebiotrade.com/newsf/2011-10/20111018165836418.htm )”一文着重介绍。

但是许多疑问依然存在,比如
1)最受大家关注的,是PacBio RS的准确性究竟如何?有用户反馈,PacBio单分子测序准确度大概只有85%,这么低的准确度怎么能保证结果的准确性?
2)PacBio RS的长读长,对数据分析而言到底有什么优势?
3)PacBio RS单分子测序无需PCR扩增,有何优势和劣势?
4)单分子测序获得结果的速度会更快吗?运行通量有多大?一次运行需要多长时间?能获得多少可定位数据?
5)除了速度,读长,通量,精确性,PacBio未来的可扩展性如何?
6)PacBio的运行费用如何?
7)已成三国鼎立之势的测序市场,PacBio RS加入战局究竟会扮演什么样的角色?会不会秒杀NGS出局呢?

为此,生物通特邀了PacBio RS中国代理——基因有限公司专门负责PacBio的技术专家,就大家普遍关心的这些问题进行了比较深入的探讨,希望能使广大读者对这一最新的测序技术了解更多。

关于读长

Q:长读长是PacBio RS最引人注目的特点之一,长读长对测序来说到底有什么优势?

A:长读长在序列拼接、定位以及需要跨越重复区域的应用中有着极大优势。
例如在De Novo Assembly时,目前遇到的主要困难在于如何跨越那些重复区域以及高/低GC含量的区域,从而完成整个基因组的拼接。

如果把拼接工作看作是在做拼图游戏。NGS获得的读长都很短,就好象把一幅图打成非常小的碎片,然后做拼图。由于碎片太小,因此许多碎片看起来都差不多,这样要拼出一副完整的图难度很大。PacBio RS目前可以获得1300bp的平均读长,明年初随着试剂升级,平均读长可提升至2500-3000bp,这就相当于同样的一幅图,用大的碎片来做拼图,由于大碎片比小碎片的识别度要高,因此完成拼图的难度就可以大幅降低。

同NGS通常100-150bp的读长相比,PacBio RS的平均读长提高了近20倍。试想一下,同样大小的一幅拼图,10,000片的还是500片的更好拼?

另外,随着读长的增加,拼接过程中所需要测序覆盖深度也会随之下降。

对变异检测来说,我们首先需要的是准确定位,如果无法准确定位,那无论原始或者一致性准确度有多高都是没有意义的。而长读长可以帮助研究者进行更准确的定位。

Q:C2试剂据说能将读长提高到2500-3000bp,这是PacBio实验室得出的数据,还是用户数据?

A:目前PacBio公布出来的C2试剂的参数是,在Long模式下,平均读长可达到2500bp,95%ile读长可达到6500bp,在X-Long模式下,平均读长可达到3000bp,95%ile读长可达到8500bp。C2试剂明年Q1将实现大规模的商品化供应,目前部分实验室已经率先在使用。例如:

C2试剂第一次被使用是在德国大肠杆菌疫情研究中,研究人员通过将不同测序模式混合使用,最终获得了2900bp的平均读长以及99.998%的一致性准确度。这项研究的结果今年七月底已经发表在新英格兰医学杂志上,题为“Origins of the E. coli Strain Causing an Outbreak of Hemolytic–Uremic Syndrome in Germany”。在这项研究中,研究人员在PacBio RS平台上通过全球合作几天内就完成了对从疫情中获得的大肠杆菌样品以及近似菌株的测序和数据分析。PacBio RS的长读长优势使得只使用PacBio RS数据完成致病大肠杆菌的De Novo Assembly成为可能,而PacBio相对NGS平台可更快获得结果这点这对鉴定新的病原体来说也是一个极大优势。

另外美国著名基因组技术服务商Expression Analysis(EA)负责研发的Pat Hurban在今年9月底一次网络会议中展示了其最新获得的PacBio数据:他们将大肠杆菌基因组DNA分别处理成2kb和6kb的片段,其中2kb的模板只用C1试剂进行了测序,6kb的模板则分别用C1和C2试剂进行了测序。Hurban发现使用C2试剂后,获得了2715bp的平均读长,最长的读长甚至达到了13091bp(可能有用户会问,插入片段大小只有6kb,怎么会产生将近13kb的读长?这是由于在PacBio平台上,样本制备完成后会形成环形的而非线性的模板结构,因此如果影片持续拍摄,当完成插入片段从一端到另一端的读取后,会跨过接头,继续读取其反义链的序列,因此这里最长读长超过了插入片段的长度),EA对使用C2试剂获得的结果非常满意。

关于准确性

Q:PacBio RS的准确性究竟如何?PacBio 工作原理和C2试剂的技术文章在生物通发布后,多位读者在评语、留言和邮件中都不约而同的提到了一篇留美中国学者的博文,提及在今年4月他个人在美国实验室试用PacBio样机的感受,原文这么说“首先,Library 和SMRTBell的准备快速而简单(生物通注:SMRTBell is the name of the prepared template DNA. SMRTBell的制备实际就是PacBio文库制备过程的一部分)。测序时间确实很短。其次,合成的DNA链长度可以达到3kb,确实比目前所有的高通测序仪都高。最致命的是误差问题。结论是单次测序错误率15%, 循环测序误差8%左右,仪器目前的性能很令人失望。我自己写了个程序来做序列对比,能把误差降到3%左右,相比起其454来,还是有很大的差距。PacBio目前还不足以投放市场。他们的软件部分实在是需要改进。”您会怎么回应?

A:首先,在PacBio RS之前,没有任何一台测序仪能够提供单分子的准确度数据。在NGS平台上,由于硬件的限制,其所检测到的信号是基于成百上千甚至更多分子,无法检测到单分子的信号。NGS平台给出的准确度是将这成百上千甚至更多分子获得的信号的平均值同reference sequence比对后获得的结果,也即一致性准确度。PacBio RS在测序历史上第一次给出了“单分子的测序准确度”数据,这是把单个模板分子的原始测序结果(标准测序模式)同reference sequence比对获得的数据,目前单分子的原始测序准确度在85~92%,平均值为87%。由于PacBio的单分子测序反应是在ZMW中进行,而每个SMRT cell含有15W个ZMW,因此当我们把N个ZMW中的单分子测序数据也做个平均,之后再同reference sequence比较,则PacBio的准确率也会大幅上升。另外,在NGS平台上,文库制备时必须要先进行PCR扩增,PCR过程中的bias或者mismatch等将无法在测序时修正,也就意味着这些错误会变成系统误差,且无法通过增加测序覆盖深度来消除。PacBio平台上,文库制备时无需PCR扩增,因此避免了PCR产生的bias等。由于PacBio上产生的错误是随机错误,且错误率并不随着读长增加而升高。因此其一致性准确度可随着测序覆盖深度的增加而提高。当测序覆盖深度达到30×时,PacBio的一致性准确度可以达到99.999%。

其次,PacBio的环形比对测序模式(CCS)可以帮助用户获得高准确度的单分子测序数据,由于我们可以对每一个单分子模板都进行评估,且无需通过PCR扩增,这对于突变检测(例如稀有SNP的检测)来说非常重要。已有实验数据表明PacBio可检测到低至1/100的突变。在突变检测中,现阶段我们建议的插入片段大小在250-500bp,以500bp的插入片段为例,当使用环形比对测序模式,单分子的测序准确度可以达到99%@ 5×CCS。C2试剂已经可以使平均读长提高到2500bp,最长的读长甚至可超过10,000bp。考虑到后续PacBio还将通过对试剂的持续优化,不断提高其读长。因此对突变检测来说,未来可研究的插入片段长度将越来越长。

Q:单分子单次测序产生错误的原理是什么?是长读长的错误累计结果还是机器原因?87%这个单分子原始测序平均准确度数字,在将来序列读长再次翻番时是否也会随之降低?那怎么办?再次提高测序覆盖深度吗?

A:PacBio平台上目前的错误主要是插入和缺失,只有大概1%是substitution。缺失错误源自于有时候碱基掺入速度过快,超过了PacBio相机的拍摄帧数。插入错误源自于有的时候酶随机的选择一些碱基,但并未将这些碱基真的掺入合成链中。由于这些错误是随机的,因而可以随着测序覆盖深度的增加而消除。因此,尽管PacBio的单分子单次读取的原始准确度并不非常高,但随着测序覆盖深度的增加,它可以获得比NGS平台更高的一致性准确度。

PacBio的错误是随机错误,并不会随着读长的增加而提高,因此,当读长翻番时,错误率并不会随之提高。未来随着试剂的不断优化,单分子测序的原始准确度也会逐步提高,且每个SMRT cell可获得的数据量也会进一步提高。

关于速度和运行通量

Q:PacBio RS的测序速度有多快?样品制备需要多久?一次测序运行需要多长时间?一次运行最多能得到多少Gb可定位数据?运行通量能有多大?

A:目前PacBio上所使用的DNA聚合酶的合成速度大概是1-3个碱基/秒,由于在该平台上,聚合酶合成的过程就是序列解读的过程,这意味着测序速度每分钟可超过100个碱基。

从样品制备到获得碱基序列的全部流程可在1天内完成。

如果使用C2试剂,每个SMRT cell可以获得90M 的可定位数据(mappable data)。现阶段每天最多可运行12个SMRT cell,因此每天可获得的数据是12×90=1080Mb mappable data。

Q:PacBio平台每天可获得的数据量目前来看与大型NGS平台(例如HiSeq2000每天可获得55Gb数据)相比还小得多,PacBio“每天最多运行12个SMRT cell”这个界限几时能翻番?每个SMRT cell最大读取数还能继续提高吗?平台未来的扩展性如何?有的NGS平台强调只需升级试剂部分即可实现读长翻番或者测序通量翻番,PacBio未来将从哪些方面扩展其性能呢?

A:现阶段PacBio平台和NGS平台更多的是一种互为补充的关系,NGS可以获得更多的数据量,而PacBio可以获得更多的信息量。接下来的发展计划中,PacBio将通过对试剂以及软件的持续开发和优化,进一步提升读长,增加每个SMRT cell的数据产出量,并且会对DNA碱基修饰(例如DNA甲基化等)分析以及RNA直接测序等提供更多的支持(例如提供配套试剂盒和相应分析软件等)。

关于价格和市场

Q: 这是个敏感问题!精明的用户肯定会关心性价比。特别是后续运行费用,往往是决定采购的一个关键因素。PacBio RS每次运行费用大概多少?

A: PacBio的后续消耗品主要包含试剂和耗材两部分。试剂有3种:模板制备试剂盒,结合试剂盒以及测序试剂盒,耗材就是SMRT cell。具体的费用取决于样本数、所要研究的基因片段的大小、测序方案的选择、测序模式等,很难一概而论。详细情况可以联系基因有限公司咨询。

你说的性价比,研究者更加关注的是从样品开始到可发表的最终结果——你不能只看单价,或者单次运行的成本——因为不是运行结束,软件自动出来的结果就可以打印发表。如果考虑到长读取的优势和在数据拼接上能节省的时间和费用,就这一点而言,PacBio RS有其他方法不可比拟的优势。关键是它是否能满足你的需要,帮助你快人一步达到目标。

Q:已成三国鼎立之势的测序市场,PacBio RS加入战局究竟会扮演什么样的角色?能否秒杀NGS出局呢?

A:这取决用户的具体应用。以基因组拼接为例,对于基因组较大的物种,例如植物,现阶段PacBio平台和NGS平台是一种互为补充的关系,NGS可以获得更多的数据量,而PacBio可以获得更多的信息量(例如NGS平台很难获得的高GC含量区域的信息等)。通过PacBio RS的配套分析软件,我们可以实现同NGS数据(兼容三大NGS平台)的混合拼接,从而大幅提高Genome Finishing的速度。对于基因组较小的物种,例如微生物和病毒等,则可以仅通过PacBio RS,独立完成De Novo Assembly。

Q:PacBio RS除了在De Novo Assembly、突变检测等领域有优势,还在其他哪些方面有更多应用?

A: PacBio RS可以对高GC含量区域测序,例如美国UC Davis医学院利用单分子实时测序技术,对脆性X染色体综合征的关键基因FMR1中的CGG三核苷酸重复区域进行了测序,并在第15届脆性X和早发性认知缺损国际研讨会上公布研究成果。在所有人的X染色体上都有一段CGG三核苷酸重复序列,正常人的CGG重复次数为5-44次。过长的重复次数会对FRM1基因转录或翻译出FRM1蛋白不利,当重复次数超过200次时,就会导致脆性X综合征。所以检测CGG的重复次数非常有意义。一般CGG重复在200次以上,被认为是具有临床意义的,但这个长度不管对于Sanger法测序或者新一代测序来说,都是很困难的,而PacBio则很好的解决了这个问题,利用环形比对测序模式,UC Davis医学院获得了超过10kb的原始读长,覆盖了CGG重复超过750次的三核苷酸重复区域。

另外一个例子。甲基化研究如今开展得如火如荼。除了人们熟知的5-mC,另一种修饰方式——5-mC的羟基化形式5-hmC也引起人们注意。但现有的测序方法如亚硫酸氢盐测序,无法区分5-mC和5-hmC。若想深入了解5-hmC的生物学功能,必须开发出一种灵敏的测序方法,以揭示它在基因组中的位置。美国芝加哥大学利用第三代单分子SMRT测序技术和5-hmC的选择性化学标记方法来高通量检测5-hmC。通过聚合酶动力学带来的宝贵信息,研究人员可直接检测DNA甲基化,包括N6-甲基腺嘌呤、5-mC和5-hmC。(详细阅读:单分子测序灵敏检测5-hmC, http://www.ebiotrade.com/newsf/2011-11/20111123171704271.htm

PacBio RS还可对连续的A或者T区域测序,有研究者曾成功的对含有poly A的序列(含111个连续的A)测序。PacBio可以获得动力学信息,因此可以用于研究DNA甲基化等DNA碱基修饰情况。

另外,由于PacBio从样本制备到获得序列信息所需时间非常短(<1天),在具有时效性的病原微生物鉴定中(例如生物反恐、流行病爆发监控等)也非常有优势。(详细阅读:利用基因组学来对付疾病爆发 http://www.ebiotrade.com/newsf/2011-11/20111123170930924.htm

其他的应用文献,欢迎联系PacBio独家代理商基因有限公司索取。点击索取资料

至此,我们对PacBio第三代单分子测序技术有了更深入的了解。令人期待的技术,更令人期待的是PacBio能更快的升级,尽快将测序成本降低——如他们自己所预测的:到2013年,个人基因组的测序能在15分钟内完成,费用低于1000美元,人人都可以消费得起。。。。。。(访问结束,感谢基因有限公司提供的协助)

后继:另外一个感受,今后的科学研究,除了依靠思维创新,某种程度上拼的就是装备了。。。装备好,用得好(这个还得靠研究人的想法啦),出成果快,文章多,影响力大——面包(经费)就会有的,一切都会有的。。。(循环N次放大,一如PCR)。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号