-
生物通官微
陪你抓住生命科技
跳动的脉搏
PacBio RS第三代单分子测序系统全球访谈纪要(二)[心得点评]
主题二:PacBio RS系统在de novo测序中的优势
【字体: 大 中 小 】 时间:2012年12月28日 来源:生物通
编辑推荐:
第三代单分子测序技术还值得继续关注吗?当然!PacBio最新升级的商品化试剂使得用户平均测序读长达到了前所未有的5000bp!PacBio单分子实时测序到底怎么样?生物通就几个广受关注的主题征询收集了众多声名赫赫的PacBio用户的心得意见,以用户现身说法的方式,“原汁原味”为您呈上这一第三代单分子测序系统全球访谈纪要系列报道。
主题二:PacBio RS系统在de novo测序中的优势具体来说如何体现?
Michael Hunkapiller:
“PacBio正逐渐成为基因组谱图完整化的金标准,它的技术亮点尤其体现在微生物领域。”
Eric Schadt:
“这些微生物对我们的影响程度远比我们的想象要深远得多,即使在微生物世界也存在超乎想象的复杂交流网络,所以我们首次有能力在全基因组范围内解析微生物结构的胜利,在微生物界是一个实实在在的革新。”
我们对疫情爆发菌株采用PacBio单分子测序的方法,依赖长读长优势获得的基因组序列包含33个Contig,这比早期报道的用NGS测序法获得的包含超过300个Contig的结果优化了10倍。再结合已有的二代数据,我们最终把Contig数缩减至1个。“PacBio RS平台的通量足够在一天之内完成对微生物基因组的完整测序。”
“从样本制备到测序结果,平均只需8小时,平均读长为2,900 bp,而最长的读长达到7,800 bp,再结合CCS环形一致序列测序模式,实现了非常高的单分子准确性,最后完整拼接。在此项目证实了PacBio在复杂微生物病原体的de novo测序的能力,以及在多个基因组快速测序上的威力,这些有助于阐明病原体微生物的进化史。”
“我们的测序方式有别于其他组织的工作。”早期工作仅对一种菌株进行测序,这样的结果根本无法真实地揭示出致病菌株的起源和进化史。我们则用PacBio总共测了1个疫情爆发菌株、6个非洲临床分离的EAEC菌株、及5个EAEC参考菌株共12株,在与爆发菌株相同血清型的多种菌株中进行对比,同时调用了之前41株菌的测序信息。比较的重心不仅落在SNP差异上,同时还落在结构变异上。
“我们最终的发现跟早期结果恰恰相反,疫情爆发菌株的起源应该是肠聚集性菌株EAEC(而不是肠出血性菌株EHEC),我们在9种同一血清型的菌株中进行了序列对比,它们跟疫情爆发菌株吻合得天衣无缝。这两种菌株有根本区别,话说回来细菌确实很懂得伪装。”PacBio长读长的特点非常适合于发现结构变异,我们在疫情爆发菌株中就发现了这么一个特有的结构变异,而在其他组织公布的爆发菌株序列中就没有涵盖该信息。这就说明如果只用二代的数据,那么结构变异的信息就可能会完全丢失,或者说二代技术需要和其他技术手段结合才能够弥补。
我们绝不是运气好,在年初解读海地霍乱疫情爆发菌株时,PacBio RS系统的威力就开始呈现了。我们仅用了一个月左右的时间完成分析并发表结果,只需要3个小时就可以得到5个菌株12X覆盖度的数据。
注: 详情请见参考文献5/7、参考影像4/6、生物通往期文章2/3。
Hyun Park:
极地微生物生存在正常生物无法生存的环境中,具有很大的研究价值。最好的方法是对极地微生物进行de novo测序,从根本上揭示它们的生物学信息。“然而,极地微生物基因组中的GC含量普遍较高,这种极端性会给de novo测序带来很大难度。”
尽管一开始我们就有心理准备,但项目开展过程出现的接踵而来的苦难远远超出我们的想象。我们真的吃尽了苦头,因为我们面对的是一株GC含量高达71%的极端菌株,基因组大小在7.6 M。“谁想得到,即使利用Illumina平台进行200X深度测序,仍无法获得完整的基因组图。这还仅是个小基因组,组装时竟然产生了185 个Contig,而且缺口数量太多,根本无法通过Sanger法有效补齐。”
“我们别无他法,只好求助于PacBio,因为从原理上讲,它没有GC偏好性,这点将对我们帮助极大。最后我们仅仅用15X覆盖度就能组装得到26个Contig,缺口数量也大大减少,最终首次获得了该细菌的完整基因组信息。”
注: 详情请见生物通往期文章4。
Timothy Smith:
“如果是从疾病的临床诊断角度而言,我们是没有必要要求所有的诸如传染病源微生物的基因组图都是完整的组装图,也没有必要为了分析遗传变异而对病人个体通通进行de novo完整测序。从这个角度出发,拼个草图甚至搭个基因组框架就够了,NGS的数据在很多场合就可以做到了,可能连混合拼接的方法都用不上。但是,请千万不要忘了,拥有一些至关重要的微生物完整基因组结构图的需求是一直存在的,尤其是比如出现在某种传染病暴发或重大研究项目等情形中。”
“(在羊病微生物基因组de novo测序项目中)我们利用PacBio大于6 Kb的读长数据,只用了20X覆盖度就拼出了1个Contig,而且这一个Contig即是一条染色体。同时,我们发现混合拼接也是行之有效的方法,不再需要人工拼接的繁琐过程,既快又省。我们在这方面就颇有心得,我们用PacBio的ToCA算法来纠错,结合OLC方法进行拼接,最后得到几近完美的微生物基因组图。”
注: 详情请见参考影像9、生物通往期文章2。
生物通往期文章
1. Nature子刊:单分子测序揭示鹦鹉模仿能力
2. PacBio RS第三代单分子测序系统全球访谈纪要(一)
3. 单分子测序技术助力欧洲大肠杆菌研究
4. 单分子测序解决“极端”基因组组装难题
5. 单分子测序轻松升级参考基因组
Christopher Mason:
我们发现,PacBio的长读长优势不仅可以应用到微生物基因组de novo完整测序中,还可以应用到大型基因组的草图升级工作中。比如我们在马达加斯加指猴(Aye Aye)基因组测序项目中,仅用了0.5X覆盖度的PacBio长读长数据(C1试剂),就可以对原始38X覆盖度的Illumina短读长数据拼接起到令人震惊的促进作用。“长读长数据帮助我们把大量的短小Contig进行桥联,效果明显,省了不少后期的拼接时间。”最终无论是Contig数量还是Scaffold数量都缩减至原始的1/10,N25和N50提升了2-3倍,N75提升了近10倍。
注: 详情请见参考影像2/3/5。
David Jaffe:
众所周知,NGS的广泛应用使我们轻松获得了无数基因组草图,但随后的基因图谱精细化或者说填缝过程主要还是依赖PCR和Sanger测序,这个过程太昂贵太痛苦了,翻来覆去的猜测、微调、人工纠错等过程,用计算机术语来讲就是“迭代”。
“谁都不希望看到这样,因为历经多年耗资庞大,但真正完成的真核大基因组寥寥可数,即使如微生物这样的小基因组,由于存在某些区域的碱基复杂性,真正完成的微生物基因组完整图也不多。所以我们决定接受这样一个挑战,我们的初衷是想把基因组组装工作从昂贵、费时、繁琐的人工时代拉入到一个全新的低耗全自动时代。”
尽管Illumina的错误率比PacBio低,但它的读长太短,给拼接工作带来很多麻烦。“鉴于取长补短,把Illumina和PacBio结合起来是行得通的。”
“我们同时也看到了PacBio数据里所包含的Illumina无法给出的信息,比如PacBio测序前DNA无需扩增,用DNA聚合酶进行单分子合成可以跨越基因组上一些以往Illumina无法到达的高GC和高重复区域,最终在基因组的覆盖程度达到空前的一致,这一点太重要了。”
我们研究组先用Illumina数据拼出了Rhodobacter细菌的Scaffold,然后用PacBio的长读长数据去填补Gap。在加入PacBio数据之前,一个Scaffold包含22个Contig,加入PacBio数据后,结果立即改观,“拼成了一个巨大的Contig”。接下的工作,我们期望把PacBio长读长的优势最大化发挥,比如应用到微生物De novo测序和SNP验证中。
我们同期启用了三套数据,Illumina的Paired-end数据、PacBio数据(C1试剂)、以及跨长片段接头处的Jumping-pair数据,发现无论如何拼接,长度长数据对获得良好的基因组装配结果是必须的,而Illumina短片段数据可以被去除,因为Jumping-pair数据就可以提供足够精确的覆盖度了,今后随着PacBio的长读长和自我纠错能力改善(比如HGAp和Quiver),可能Jumping-pair也不需要了。通过这个办法,我们共测了16个细菌样品,其中有3个已经存在完整的参考序列。“我们惊人地发现,其中2个已有的参考序列还不如我们这次测序的结果来得精确。”
谈到花费,混合拼接的方法至少帮我们从试剂和人力消耗上省掉了12000美金。
我们开发的这套新型算法已经整合到了Broad研究院之前开发的ALLPATHS-LG软件里,输入长读长数据后该模块会自动启动,组装出完整的基因组。“在混合拼接基础上,我们还将对外提供微生物基因组测序、组装、精细化等服务,专门成立一个服务中心。”
当下确实也没有其他方法可以提供类似于PacBio给出的超长且覆盖不失公允的读长信息,对大型基因组的组装探索我们还在继续。
注: 详情请见参考文献1。
生物通往期文章
1. Nature子刊:单分子测序揭示鹦鹉模仿能力
2. PacBio RS第三代单分子测序系统全球访谈纪要(一)
3. 单分子测序技术助力欧洲大肠杆菌研究
4. 单分子测序解决“极端”基因组组装难题
5. 单分子测序轻松升级参考基因组
Michael Schatz:
我们的项目集中在基因组组装上,主要是最后一步修补基因组缺口环节。以往的方法当然是Sanger法,这是昔日的金标准。“随之而来的是二代短读长技术,这个技术固然有它的优点,比如花费最少,但在组装环节更多的效果是南辕北辙。”二代数据产生的最大特色就是海量的Contig、重复序列、以及某些特殊区域的缺失。如果不是花费问题,我们宁愿用Sanger法组装,而不是一味用二代提高覆盖度。
“因为我们心里很清楚,短读长里面就是无法包含我们想要的信息。”当PacBio的长读长技术出现的时候,我们眼前一亮,觉得可以一试,以便走出多年受困的阴霾。“三代长读长所包含的信息要远远超过二代短读长。对于短读长,哪怕无限制地提高覆盖度也不能解决复杂区域的测序问题。但长读长可以跨越这次复杂区域,因此不需要太高的覆盖度就可以对付。同理,长读长也可以用于检测并鉴定单倍体型和转录本的可变剪切。”
“我们想到的办法就是结合二代和三代各自的优势。”为了应对三代测序中出现的碱基错误问题,我们开发了一种纠错算法,用二代短读长高精确数据对三代长读长数据进行纠错,这个方法我们把它叫做“混合纠错拼接”。通过混合纠错法,我们发现“数据几近完美”。
我们先后尝试了几种方案,先是采用Illumina短读长数据进行组装,用PacBio长读长数据进行比对,结果发现弄不下去。总有这样那样的问题困扰短读长组装,比如片段太零散或者局部坍塌,很难有效利用起来。“于是我们放弃了这种我们戏称为‘暴力拼接’的方式,取而代之以先纠错后组装的方法。”即用Illumina短读长数据先给PacBio长读长数据纠错,再用修正过的长读长数据组装。我们也同时采用了用PacBio的CCS数据为长读长数据纠错,效果同样好。“所以我们讲的‘混合纠错拼接’方法是一个广义的范畴。”我们设法升级了公共基因组装配程序Celera Assembler,生成的装配结果准确性达到99.9%,Contig平均长度是NGS所能达到的两倍以上。
谈到经验就不能一概而论了,但我们试下来,对于短读长,无论产自Illumina还是454甚至或者是PacBio CCS模式,短读长的覆盖度达到25-50X就足够了,对于PacBio的长读长覆盖度要求不高,适中就可以了。有长读长帮忙,使得“一条染色体,一个重叠群”的目标实现变得清晰。
为了验证这个算法,我们尝试了多个生物物种测序应用,小到噬菌体病毒,中到酵母、玉米,大到复杂的鹦鹉基因组,都得到了正面反馈。
“高效快速的de novo拼接有助于发现大片段的结构变异,对理解癌症基因组和存在融合基因、拷贝数变异和大范围结构变异的疾病遗传变化具有重要意义。”
注: 详情请见参考文献2、参考影像7/10/11/12、生物通往期文章1/2。
Adam Phillippy:
我们率先使用Illumina或Roche 454等二代短读长数据去为PacBio单分子长读长数据进行纠错,并开发了一套纠错算法。接着我们在多种物种中验证了这一纠错算法,比如大肠杆菌基因组、酵母基因组、以及玉米转录组等,发现可以把单分子测序正确率从83%提高至99.9%。我们还将这一混合纠错策略应用到高等物种比如虎皮鹦鹉基因组测序项目中。
在未来的工作中,我们希望把这套算法应用到人们经常忽略的基因组非编码区中。“人们用测序法往往只关心编码基因信息,这样的话就丢失了基因的结构信息。非编码区包含的结构信息之前从未被清晰揭示过,这些区域包含太多大片段的重复序列,无论是读取还是组装,用二代短读长的方法可以说是捉襟见肘。”
注: 详情请见参考文献2、参考影像7/10/11/12、生物通往期文章1/2。
Erich Jarvis:
我们致力于鸟类鸣声系统研究,认为不同物种间的鸣声学习方式不同源于编码蛋白的表达量不同,而非蛋白种类的不同,这一结果我们猜测由基因的非编码区结构不同导致。“如果没有一套行之有效的非编码区组装方法,那么我们轻易下手做这些实验就等于是异想天开。”
注: 详情请见参考文献2、参考影像7/10/11/12、生物通往期文章1/2。
Elaine Mardis:
混合纠错后获得的长读长数据非常适合于一些特定场合的研究。“比如混合纠错对转录组研究可能很管用,因为单次长读长就可以跨越整个mRNA,所以可以很好地解读可变剪切的多种方式,即为什么单一转录本可以获得多种编码蛋白。”
生物通往期文章
1. Nature子刊:单分子测序揭示鹦鹉模仿能力
2. PacBio RS第三代单分子测序系统全球访谈纪要(一)
3. 单分子测序技术助力欧洲大肠杆菌研究
4. 单分子测序解决“极端”基因组组装难题
5. 单分子测序轻松升级参考基因组
Mark Chaisson:
“考虑到PacBio的超长读长和随机误差的特性,之前基于二代短读长设计的比对算法未必能从容应对,不是不准就是太慢,所以我们必须开发出一套自己的能应用于DNA组装的软件。”BLASR就是这样应运而生的,它将是单分子测序长读长比对的标准,特别针对PacBio的超长读长和主要因插入缺失导致的随机误差纠错。“我们的要求很简单,就是既快又准。”我们将BLASR跟现有的经典二代组装软件进行了比较和相互借鉴,比如BWA-SW。相比BWA-SW,在比对48X覆盖度的大肠杆菌数据库时,BLASR在处理速度上有了95%的提升,错配的区域很少;在比对覆盖度较少的人类基因组数据库时,BLASR的处理速度也有了成倍的改善。未来,BLASR将进一步和Celera和ALLORA等组装软件进行整合。
注: 详情请见参考文献3、参考影像4/7/13。
Adam English:
“我们专门开发了高度自动化的工具PBJelly,能够将PacBio长片段与基因组草图进行比对,填补或减少草图中的缺口,从而完善基因组草图。”比如在果蝇基因组中,利用24X覆盖度的PacBio数据填补了69%的残留Gap;在虎皮鹦鹉基因组中,利用4X覆盖度的PacBio数据填补了32%的残留Gap;在白眉猴基因组中,利用6.8X覆盖度的PacBio数据填补了66%的残留Gap。后续我们用Sanger测序法进行了准确性验证。“当你纠结于手头PacBio数据的覆盖度不够高时,PBJelly也许能给你意向不到的拼接效果。”
注: 详情请见参考文献4、参考影像1/8、生物通往期文章2/5。
Edwin Hauw:
PacBio现在有一系列的软件算法可供选择,比如AHA 、ALLORA、ALLPATHS-LG、Celera Assembler、MIRA等。其中AHA更适合搭建基因组草图框架,其余几个程序更适合混合拼接,ALLORA还可以用来做de novo组装,但需要配合P_ErrorCorrection手工纠错。除此之外,我们还在和其他研究机构合作开发一些优化的软件算法,用于不同的场合。比如新开发的LSC长读长纠错法,在转录组和RNA测序方面就比pacBioToCA更加优异。当然也有其他机构在自行开发适合于自身应用的软件,比如Baylor医学院开发的PBJelly软件等。
“我想说,不同物种的基因组复杂程度千差万别,因此没有一个算法是万能的,懂得选择很重要。”比如,当PacBio数据覆盖度很高时,Celera Assembler和ALLORA是最佳混合拼接解决方案;当覆盖度不高时,可以考虑AHA或者PBJelly,这两个比较适合于基因组草图升级工作。相比较只能处理200M基因组的AHA,PBJelly的优势在于可以应付G级基因组。即使有些场合可以通用,但AHA胜在既可连接Contig也可填补Gap,而PBJelly则胜在精细填补Gap的能力上,它不会去连接Contig。
注: 详情请见参考文献3、参考影像4/7/13。
Jonas Korlach:
尽管目前业内人士对二代和三代数据混合使用的方式很感兴趣,但事实上我们正想方设法去避免类似的事情发生。“技术正在不断变革,我们不认为这种方法(指混合纠错或混合拼接)在以后还将是所谓的典范。我们已经在拼接算法开发上取得了很大进展,只用PacBio自身的数据进行层次组装(Hierarchical Genome Assembly Process,HGAp),即以相对较长的读长数据为种子(Seeding Reads),以相对较短的读长数据用于内部纠错。这个时候得到的读长数据足够长也足够准确,完全可以用于独立的de novo组装,而无需二代数据帮忙。”HGAp的出现意味着可以不依赖于二代测序数据进行混合拼接,也可以不依赖于PacBio的CCS环形比对模式纠错,只需要通过PacBio的CLR连续长读长模式就可以进行独立纠错和拼接,最终结果“在20X覆盖度下的正确率超过99.999%(QV54.5)”,而SMRT Cell的消耗量却只有之前的50%。目前HGAp已经发布到DevNet上。我们同期还开发了改良版的一致序列算法称之为Quiver,也发布到网上共享,该算法内嵌了Markov模型,在Base Calling设置上可以进一步降低一致序列的生成错误率。我们建议把HGAp用在基因组组装和拼接上,把Quiver用在最终的基因组打磨(Polishing)工作,用组合的方式在精确度上进行Doublecheck。
Michael Schatz:
长度长测序“完全有能力”解析诸如人类基因组等复杂基因组。“在文章中我们用PacBio的长读长数据改善了1.2 Gb鹦鹉基因组的de novo组装,现在我们又开始尝试对几种水稻和线虫进行de novo测序。在不久的将来,我们计划只通过长读长法(HGAp)对人类和小麦基因组进行独立测序并组装。随着PacBio读长和通量的不断改善,我希望我们还能看到更多的应用。光去年一年,PacBio将读长和通量提升了3-4倍,而且根据他们的Roadmap这个趋势还将继续到下一年。”
注: 详情请见参考文献2、参考影像7/10/11/12、生物通往期文章1/2。
参考文献
1. Finished bacterial genomes from shotgun sequence data. Ribeiro FJ, Przybylski D, Yin S, Sharpe T, Gnerre S, Abouelleil A, Berlin AM, Montmayeur A, Shea TP, Walker BJ, Young SK, Russ C, Nusbaum C, Maccallum I, Jaffe DB. Genome Res. 2012 Nov;22(11):2270-7.
http://genome.cshlp.org/content/22/11/2270.long
2. Hybrid error correction and de novo assembly of single-molecule sequencing reads. Koren S, Schatz MC, Walenz BP, Martin J, Howard JT, Ganapathy G, Wang Z, Rasko DA, McCombie WR, Jarvis ED, Adam M Phillippy. Nat Biotechnol. 2012 Jul 1;30(7):693-700.
http://www.nature.com/nbt/journal/v30/n7/full/nbt.2280.html
3. Mapping single molecule sequencing reads using Basic Local Alignment with Successive Refinement (BLASR): Theory and Application. Chaisson MJ, Tesler G. BMC Bioinformatics. 2012 Sep 19;13(1):238.
http://www.biomedcentral.com/1471-2105/13/238
4. Mind the Gap: Upgrading Genomes with Pacific Biosciences RS Long-Read Sequencing Technology. English AC, Richards S, Han Y, Wang M, Vee V, Qu J, Qin X, Muzny DM, Reid JG, Worley KC, Gibbs RA. PLoS One. 2012;7(11):e47768.
http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0047768)
5. Origins of the E. coli strain causing an outbreak of hemolytic-uremic syndrome in Germany. Rasko DA, Webster DR, Sahl JW, Bashir A, Boisen N, Scheutz F, Paxinos EE, Sebra R, Chin CS, Iliopoulos D, Klammer A, Peluso P, Lee L, Kislyuk AO, Bullard J, Kasarskis A, Wang S, Eid J, Rank D, Redman JC, Steyert SR, Frimodt-Møller J, Struve C, Petersen AM, Krogfelt KA, Nataro JP, Schadt EE, Waldor MK. N Engl J Med. 2011 Aug 25;365(8):709-17.
http://www.nejm.org/doi/full/10.1056/NEJMoa1106920
6. Pacific biosciences sequencing technology for genotyping and variation discovery in human data. Carneiro MO, Russ C, Ross MG, Gabriel SB, Nusbaum C, DePristo MA. BMC Genomics. 2012 Aug 5;13:375.
http://www.biomedcentral.com/1471-2164/13/375
7. The origin of the Haitian cholera outbreak strain. Chin CS, Sorenson J, Harris JB, Robins WP, Charles RC, Jean-Charles RR, Bullard J, Webster DR, Kasarskis A, Peluso P, Paxinos EE, Yamaichi Y, Calderwood SB, Mekalanos JJ, Schadt EE, Waldor MK. N Engl J Med. 2011 Jan 6;364(1):33-42.
http://www.nejm.org/doi/full/10.1056/NEJMoa1012928
参考影像
1. PacBio AGBT 2012 English
2. PacBio AGBT 2012 Mason
3. PacBio AGBT 2012 Testimonial Mason
4. Virtual Poster: De Novo Microbial Sequencing with Hybrid PacBio Genome Assemblies, Lawrence Hon (Pacific Biosciences)
5. Virtual Poster: Hybrid Assembly of a Nocturnal Lemur, Chris Mason (Weill Cornell Medical College)
6. Virtual Poster: Hybrid Assembly of Novel Bacterial Genomes, Ali Bashir (Mt. Sinai)
7. Virtual Poster: Understanding Single Molecule Accuracy, John Eid (Pacific Biosciences)
8. Virtual Poster: Upgrading Reference Genomes with PacBio Long Read Sequencing, Adam English (Baylor)
9. Webinar: Applications of SMRT® Technology to Livestock Research, Timothy Smith (USDA)
10. Webinar: De-Novo Assembly of a Vertebrate Genome using PacBio Hybrids with Other Sequencing Technologies, Erich Jarvis (Duke University)
11. Webinar: Error Correction and De Novo Assembly of Complex Genomes, Mike Schatz (CSHL).
12. Webinar: Hybrid Error Correction and De Novo Assembly of Single-Molecule Sequencing Reads, Adam Phillippy & Sergey Koren (NBACC)
13. Webinar: Revealing the Genome through SMRT Biology, Kerstin Stangier (GATC Biotech)
生物通往期文章
1. Nature子刊:单分子测序揭示鹦鹉模仿能力
2. PacBio RS第三代单分子测序系统全球访谈纪要(一)
3. 单分子测序技术助力欧洲大肠杆菌研究
4. 单分子测序解决“极端”基因组组装难题
5. 单分子测序轻松升级参考基因组