生物通

生物通首页 > 今日动态 > 专题总汇 > 技术讲座笔记:单分子测序PacBio

导言
       导言:号称第三代的单分子测序技术,又是一个划时代的新里程碑,必将为研究开辟出新的领域和思路,不可错过。可惜PacBio厂家公开的技术讲座今年四月在国内只得2场,讲座实况暂不允许公开,故生物通编者整理了一份详尽的讲座笔记并稍作调整补充,以飨读者。

技术原理

关键点之一:DNA聚合酶

       DNA聚合酶和模板结合,4色荧光标记4种碱基,经过Watson配对后不同的碱基加入,会发出不同光,根据光的波长与峰值可判断进入的碱基类型。这个DNA聚合酶是实现超长读长的关键之一,读长主要跟酶的活性保持有关,主要受激光对它的损伤的影响。PacBio还在不断优化聚合酶的性能,比如给聚合酶加上免受激光影响的保护基团等,进一步地提高读长,提高测序质量和通量。详细

 

       单个ZMW底部固定有一个结合了模板DNA的聚合酶,当加入测序反应试剂后,每个碱基配对合成后会发出相应的光并被检测。一个SMRTCell中有15万个ZMW,每个孔中有一个单分子DNA链在高速合成,如众星闪烁。原始检测数据的结果,每合成一个碱基即显示为一个脉冲峰,每分钟>100个碱基的速度,配上高分辨率的光学检测系统,就能实时检进行检测。


关键点之二:荧光标记位点
       二代测序都标记在5‘端甲基上,在合成过程中,荧光标记物保留在DNA链上,随DNA链的延伸会产生三维空间阻力导致DNA链延长到一定程度后会出现错读。这是NGS的测序读长仅能达到100多bp到200bp的一个原因。
       PacBio平台的碱基荧光标记在3‘端磷酸键。在DNA合成过程中正确的碱基进入时,在3’端磷酸键的标记是会随磷酸键断裂自动被打断,标记物被弃去,亦即合成的DNA链不带荧光标记,和天然的DNA链合成产物一致,可以达到很长的读长。详细

关键点之三:时空段概念
       合成过程中,每次进入一个碱基,原始数据会实时地产生一个脉冲峰,每两个相邻的脉冲峰之间有一定的距离,也就是有一个时间段的概念。这个距离的长短与模板上碱基是否存在修饰有关,如果有碱基修饰,就像开车经过路障时,通过速度会减慢,导致两个相邻峰之间距离加大。根据这个距离的变化,可以判断模板相应位点是否出现碱基修饰,并且结果是实时的。甲基化就是一种主要的碱基修饰,PacBio技术不仅可以提供序列信息,还可提供实时信息了解模板修饰的情况,用于甲基化等碱基修饰研究。详细


测序流程和策略

1. 文库制备
材料:全基因组DNA,或者cDNA,或者目标扩增产物
片段化:全基因组太大需要片段化,因为测序读长很长,可以做很大的片段文库(3-10kb)
连接:先把片段粘末端变成平端,两端分别连接环状单链:单链两端分别与双链正负链连接上,得到一个类似哑铃(“套马环”)的结构,称为SMRT Bell。连接半小时内完成。

2. 引物退火 + 聚合酶结合
当引物与模板的单链环部位退火后,这个双链部位就可以结合到已固定在ZWM底部的聚合酶上。

3. 测序策略
       万事俱备,一旦向反应中加入正常的离子,DNA聚合反应开始了。模板双链打开成环形,先合成正链,单链区,跟着合成负链。聚合酶每合成一圈,对于定向目标序列,就相当于2x覆盖度。由于合成产物和天然产物一致,聚合酶可以持续合成很长很长的产物,亦即循环合成很多圈(重复多次),对于定向单分子目标序列来说就可以得到很高的覆盖度,即获得很多subread,这就意味着可以对非常低的频率的片段获得很高的准确度,这称为环形一致序列(circle consensus)模式,该模式适用于稀有突变及需要高精确度的测序。这也是单分子测序能比NGS灵敏度更高地,高准确度地检测到稀有突变的原理。详细


技术应用
PacBio单分子测序的技术特征如下:

  • 超长的读长——de novo测序中完整基因组的组装;Target测序中多个突变位点的单倍体型检测,复杂的多个重复片段的准确测定,长转录本及可变剪切体测定等等
  • 超高测序准确度及单分子分辨率——特定序列的SNP检测,稀有突变及其频率测定
  • 动态信息——可获得甲基化等多种碱基修饰信息

超长的读长
       二代测序的短处在于读长太短。就像拼图游戏,越碎的碎片就越难拼接。虽然提供海量的数据,但是依然不足以完成全基因组拼接。去年在Nature上发表的一篇综述文章指出,二代测序读长太短是其技术的内有问题(fundamental data properties),数学模式所不能解决的。算法已经很成熟,算法再好,也不足以解决这个问题。
       PacBio的超长读长,可实现以相对较低的覆盖度达到很好的序列组装。有助于产生较少的重叠群,帮助全基因组组装。还可以获得复杂的DNA重组信息,比如由于断裂造成的融合基因的Breakpoint,cDNA里包含的剪切,内外显子间的关系,都需要很长的读长帮助组装跨越的区域。
       因此,对于全基因组de novo测序来说,更适宜用组合的方法,将第三代和第二代测序方式结合。冷泉港去年宣布研发一个软件,能将PacBio结果和二代测序结果结合。三代测序的超长读长,加上二代测序的海量数据(价格低廉),应该是比较好的组合。详细


定向测序中的SNP检测

       高精确,可做稀有SNP的检测。可以检测多个SNP的单倍体型,即两个临近的SNP在同一链上还是在不同链上。由于GC含量不影响单分子测序,片段读长长,可将靶片段准确定位到参考序列上,加上单分子测序的错误随机,没有PCR引入的偏向性系统误差,很容易通过提高覆盖度得到高准确的的数据。Broad研究院经过实验对比得出的结论,PacBio做SNP检测假阳性率低,在后续的SNP验证上是最好的技术手段,该论文即将在Nature Methods上发表。

观看视频:Pacbio RS在发现或确认SNP中的优势

 

动态信息
       PacBio在与对德国大肠杆菌爆发事件中的爆发株进行de novo测序组装之后,又邀请New England Biolabs公司协助对该大肠杆菌株测序结果进行甲基化方面的生物信息学分析。结果表明该基因组上确实有很多甲基化出现(约45000个)。通过排除法,发现爆发株里有CTGCAG motif特有的甲基化,还发现插入的外源序列中还有一段序列类似甲基化酶,可专门对CTGCAG的序列进行甲基化。对CTGCAG甲基化有关的基因表达分析,发现表达上调的基因包括菌毛,鞭毛体和与细胞注入有关的基因,这些结果也许可能解释为嗜菌体侵染而注入一段外源基因,其中包含一种甲基化酶,导致爆发株表达改变,提高对宿主吸附性,连同志贺毒素,而导致毒性升高。
       由此可见,正由于Pacbio的第三代测序系统得到碱基序列信息的同时获得了碱基修饰的信息,我们可同时对碱基序列和碱基修饰两方面测序信息进行分析,可以完整解释爆发株的强毒性的基因组机制,为表观遗传学及疾病基因组学开辟了新的研究思路。详细


白血病中的突变检测实例
       FLT3过去一直被认为是急性髓细胞白血病(AML)的有效治疗靶标,可患者接受靶向FLT3新药治疗后若复发会产生耐药性,导致科学界对FLT3是否是真正有效靶标产生质疑。FLT3呈受体结构,有一段激酶区域,还有一段称为ITD的重复序列,ITD上有很多突变,是过去药物筛选的靶标。最新这项研究试图发现ITD突变外部的二级突变与抗药性的关系。
       研究发现ITD外部下游区也有很多二级突变产生,和抗药性有关。二级突变产生的频率很低,很难找到,所以不受重视,在很多研究中,也没有将其与抗药性关联起来。这些二级突变的长度超过1kb,故二代测序是测不到的。PacBio技术正好可以很容易解决这个问题。结果表明,在没用药前,ITD下游二级突变出现频率不高,但用药后二级突变出现频率升高。8个例子中,不同的病人出现突变的频率和模式是不同的,其中有的突变频率很低,不到3%。正是由于第三代测序对长片段及稀有突变的高灵敏度高准确度检测,重新证实了FLT3的确是有效的药物靶标。详细


听众问答


问:关于准确度差的说法如何解释?

答:准确率这个概念本身就是指序列一致性,无论一代和二代测序的每一个反应,本来就是N个分子同时叠加反应所得到的平均信号,是一致性序列的结果。 单分子测序1x覆盖度的精确度为87.5%,这是由于在测序过程中单个分子信号弱,偶尔会出现信号难于分辨的情况。出错几率是随机的,和序列长度、序列组成无关。要提高准确率,只需要提高循环次数,提高单分子覆盖度即可,15个单分子叠加可以得到99.99%的精确度,20个单分子叠加可以得到5个9的准确度,这将是二代测序难以企及的。

问:为什么PacBio通量比二代测序低?

答:一个SMRT Cell的ZMW只有15万个,提高ZMW可以提到数据产量,提高酶耐受激光的能力也将有助于提高读长并最后提高数据产量。目前一天运行16个SMRT Cell 可产生的原始数据能达到6.4G(400M/cell计算),但单分子测序的优势在于长读长而不是通量。


更多问答>>



精彩视频


Pacbio RS助力果蝇基因组的缺口填补
贝勒医学院的Adam博士介绍,利用Pacbio RS三代测序系统,通过杂合拼接,他们完成了果蝇基因组75%的Gap filling。
观看视频

 

Pacbio RS系统在猴基因组拼装上大显身手
Weill Cornell医学院的Christopher Mason博士介绍他们仅用0.5X的Pacbio RS系统长读长数据与38X的NGS测序数据对马达加斯的一种指猴基因组进行拼装,大幅提高了数据质量和完整度,Pacbio帮助他们将原有Contig数量减少了10倍!观看视频



Pacbio RS系统在拼装海地霍乱弧菌基因组中的贡献
Mount Sinai医科大学的Ali Bashir博士介绍Pacbio RS系统在拼装海地霍乱弧菌基因组中的贡献。(文献已发表在去年的《新英格兰医学杂志》上)观看视频



点击下载“PacBio中文详细技术资料”

专题链接

第三代测序系统PacBio RS(2011年12月)

希望了解更多信息,请填写在线反馈:

姓名: Email: 电话:
单位: 职称/职务:
地址:
留言:


版权所有 生物通
Copyright© 2000-2011 eBiotrade.com, All Rights Reserved
联系信箱:info@ebiotrade.com