技术讲座笔记：单分子测序PacBio[心得点评]

【字体：大中小】 时间：2012年05月04日 来源：生物通

编辑推荐：

　　号称第三代的单分子测序技术，又是一个划时代的新里程碑，必将为研究开辟出新的领域和思路，不可错过。可惜PacBio厂家公开的技术讲座今年四月在国内只得2场，讲座实况暂时不允许公开，生物通编者整理了一份详尽的讲座笔记并稍作调整补充，以飨读者。

生物通编者按：技术讲座就像seminar，能在短短数十分钟内，将一种新技术的原理、应用和前景解释得清清楚楚，听得明白又省时。号称第三代的单分子测序技术，又是一个划时代的新里程碑，必将为研究开辟出新的领域和思路，不可错过。可惜PacBio厂家公开的技术讲座今年四月在国内只得2场，讲座实况暂时不允许公开，生物通编者整理了一份详尽的讲座笔记并稍作调整补充，以飨读者。

一技术原理

SMRT：single molecular real time Sequencing
PacBio RS，RS表示Real time Sequencing

单分子测序的关键之一：DNA聚合酶

基本原理：DNA聚合酶和模板结合，4色荧光标记4种碱基，经过Watson配对后不同的碱基加入，会发出不同光，根据光的波长与峰值可判断进入的碱基类型。这个DNA聚合酶是实现超长读长的关键之一，读长主要跟酶的活性保持有关，主要受激光对它的损伤的影响。PacBio还在不断优化聚合酶的性能，比如给聚合酶加上免受激光影响的保护基团等，进一步地提高读长，提高测序质量和通量。

和其他基本测序技术一样，在反应管中进行的是大规模平行的多分子反应，怎样在其中进行单分子反应检测？周围有大量的荧光标记的游离碱基，怎样将反应信号与周围游离碱基的强大荧光背景区别出来？

通过一个物理现象解释：ZMW（zero-mode waveguides，零模波导孔）。例如微波炉壁上可看到有很多密集的小孔。小孔直径有考究，如果直径大于微波波长，能量就会穿透面板泄露。如果孔径小于波长，能量不会辐射外部，可起保护作用。

同理，在一个反应管（SMRTCell：单分子实时反应孔）中有许多这样的圆形纳米小孔，即ZMW（零模波导孔），外径100多纳米，比检测激光波长小（数百纳米），激光从底部打上去后不能穿透小孔进入上方溶液区，能量被限制在一个小范围（体积20X 10^-21 L）里，正好足够覆盖需要检测的部分，使得信号仅来自这个小反应区域，孔外过多游离核苷酸单体依然留在黑暗中，将背景降到最低。

单个ZMW底部固定有一个结合了模板DNA的聚合酶，当加入测序反应试剂后，每个碱基配对合成后会发出相应的光并被检测。一个SMRTCell中有15万个ZMW，每个孔中有一个单分子DNA链在高速合成，如众星闪烁。原始检测数据的结果，每合成一个碱基即显示为一个脉冲峰，每分钟>100个碱基的速度，配上高分辨率的光学检测系统，就能实时检进行检测。

关键点之二：荧光标记位点。这是影响测序长度的非常关键的因素。

二代测序都标记在5‘端甲基上，在合成过程中，荧光标记物保留在DNA链上，随DNA链的延伸会产生三维空间阻力导致DNA链延长到一定程度后会出现错读。这是NGS的测序读长仅能达到100多bp到200bp的一个原因。

PacBio平台的碱基荧光标记在3‘端磷酸键。在DNA合成过程中正确的碱基进入时，在3’端磷酸键的标记是会随磷酸键断裂自动被打断，标记物被弃去，亦即合成的DNA链不带荧光标记，和天然的DNA链合成产物一致，可以达到很长的读长。

（笔者疑问：是不是NGS改用5‘端标记，就能实现延长读长？
答：首先，荧光标记在3‘端磷酸键是PacBio的专利。其它公司没法做。荧光标记位点仅仅是影响读长的一个重要因素之一，PacBio的单分子实时测序反应是最接近天然状态的聚合酶反应体系，最大限度地保持了聚合酶的活性。NGS测序反应原理不尽相同，有的是焦磷酸测序反应，除聚合酶外有多种酶参与测序反应，要兼顾多种酶的活力并容非一件易的事；有的是通过添加保护基团来控制碱基的加入和检测，通过淬灭试剂来消除背景荧光和保护基团，这些都增加了测序反应体系本身的复杂性，此外，NGS每加入一种碱基或一个碱基后都需要清洗步骤清除没有反应的多余反应物及反应产生的次级产物，这都影响了聚合酶的合成进程。）

关键点之三：时空段概念

合成过程中，每次进入一个碱基，原始数据会实时地产生一个脉冲峰，每两个相邻的脉冲峰之间有一定的距离，也就是有一个时间段的概念。这个距离的长短与模板上碱基是否存在修饰有关，如果有碱基修饰，就像开车经过路障时，通过速度会减慢，导致两个相邻峰之间距离加大。根据这个距离的变化，可以判断模板相应位点是否出现碱基修饰，并且结果是实时的。甲基化就是一种主要的碱基修饰，PacBio技术不仅可以提供序列信息，还可提供实时信息了解模板修饰的情况，用于甲基化等碱基修饰研究。

二测序流程和策略

配件：SMRT cell chip（小拇指指甲盖大小）。一条strip可以放8个SMRT cell，仪器一次可运行2条strip，共16个SMRT cell
文库构建试剂盒，测序试剂盒

流程和策略

1. 文库制备

材料：全基因组DNA，或者cDNA，或者目标扩增产物

片段化：全基因组太大需要片段化，因为测序读长很长，可以做很大的片段文库（3-10kb）

连接：先把片段粘末端变成平端，两端分别连接环状单链：单链两端分别与双链正负链连接上，得到一个类似哑铃（“套马环”）的结构，称为SMRT Bell。连接半小时内完成。（问题：片段化用什么方法？两端的环状单链是同一序列吗？如何确定单链方向？如果两端一样，如何分辨正负链？如何排除其他连接产物？连接效率有多高？如何纯化去掉酶？答：关于以上文库制备问题跟NGS类似，比如用片段化仪进行片段化，加接头等等。通过优化的实验protocol进行各步骤的优化。）

如此，文库制备完成，简单快速。无需扩增。没有扩增偏向性，高或低GC含量区域覆盖均匀，尤其不会湮没稀有突变。

2 引物退火 + 聚合酶结合

当引物与模板的单链环部位退火后，这个双链部位就可以结合到已固定在ZWM底部的聚合酶上（问题：大分子DNA进入小孔的扩散速度？是否会存在有的ZMW没有模板进入的情况？答：SMRTCell中样本和测序反应体系的配置都是在测序仪中程序化自动完成的，简单快捷，标准化。会，目前的通量基于目前的进入效率，因此这方面还有提高的空间）。

索取PacBio测序系统的更多资料

3. 测序策略

万事俱备，一旦向反应中加入正常的离子，DNA聚合反应开始了。模板双链打开成环形，先合成正链，单链区，跟着合成负链。聚合酶每合成一圈，对于定向目标序列，就相当于2x覆盖度。由于合成产物和天然产物一致，聚合酶可以持续合成很长很长的产物，亦即循环合成很多圈（重复多次），对于定向单分子目标序列来说就可以得到很高的覆盖度，即获得很多subread，这就意味着可以对非常低的频率的片段获得很高的准确度，这称为环形一致序列（circle consensus）模式，该模式适用于稀有突变及需要高精确度的测序。这也是单分子测序能比NGS灵敏度更高地，高准确度地检测到稀有突变的原理。

除了特有的环形一致序列（circle consensus）模式外，也可以通过增加同一序列的覆盖度（在不同ZMW中）获取高的一致性准确度。

单分子覆盖度和获取序列一致性准确度的关系

QV 10代表90%准确度，20代表99%准确度，30代表99.9%准确度，40代表99.99%准确度，50代表99.999%准确度。由图可见，5个单分子叠加可以得到99%准确度，10个单分子叠加可以得到99.9%准确度，15个单分子叠加可以得到99.99%，20个单分子叠加可以得到5个9的准确度。。。类推。而对于因此可以看出，利用环形一致序列模式这个策略，对同一单分子就可以得到非常非常高的准确度。

听众提问：关于准确度差的说法如何解释？回答补充于此：准确率这个概念本身就是指序列一致性，无论一代和二代测序的每一个反应，本来就是N个分子同时叠加反应所得到的平均信号，是一致性序列的结果。单分子测序1ｘ覆盖度的精确度为87.5％，这是由于在测序过程中单个分子信号弱，偶尔会出现信号难于分辨的情况。出错几率是随机的，和序列长度、序列组成无关。要提高准确率，只需要提高循环次数，提高单分子覆盖度即可，15个单分子叠加可以得到99.99％的精确度，20个单分子叠加可以得到5个9的准确度，这将是二代测序难以企及的。（问题：用PCR扩增结果测序是否能通过提高重复拷贝数而提高覆盖度，从而同时达到长片段和高度精确的目的？答：是，可以通过提高重复拷贝数或对同一单分子环形测序两种方式，或二者结合，达到要求的覆盖度及准确度。）

如果需要很长的读取，策略是构建3 kb-10 kb的文库，就可以获得长的读长，这就是continuous longread模式。这种模式，很长的读长适合做全基因组序列组装骨架。

读长分布图。平均读长3.1kb，top 5% 读长大于8kb，最长读长14.7kb。目前有标准的protocol，长片段测序推荐为90min。

三技术应用

一种新技术的应用，通常倚借其技术特长的优势。

PacBio单分子测序的技术特征

超长的读长——de novo测序中完整基因组的组装； Target测序中多个突变位点的单倍体型检测，复杂的多个重复片段的准确测定，长转录本及可变剪切体测定等等
超高测序准确度及单分子分辨率——特定序列的SNP检测，稀有突变及其频率测定
动态信息——可获得甲基化等多种碱基修饰信息

超长的读长

二代测序的短处在于读长太短。就像拼图游戏，越碎的碎片就越难拼接。虽然提供海量的数据，但是依然不足以完成全基因组拼接。去年在Nature上发表的一篇综述文章指出，二代测序读长太短是其技术的内有问题（fundamental data properties），数学模式所不能解决的。算法已经很成熟，算法再好，也不足以解决这个问题。

PacBio的超长读长，可实现以相对较低的覆盖度达到很好的序列组装。有助于产生较少的重叠群，帮助全基因组组装。还可以获得复杂的DNA重组信息，比如由于断裂造成的融合基因的Breakpoint，cDNA里包含的剪切，内外显子间的关系，都需要很长的读长帮助组装跨越的区域。

因此，对于全基因组de novo测序来说，更适宜用组合的方法，将第三代和第二代测序方式结合。冷泉港去年宣布研发一个软件，能将PacBio结果和二代测序结果结合。（三代测序的超长读长，加上二代测序的海量数据（价格低廉），应该是比较好的组合。听众提问：为什么PacBio通量比二代测序低？回答补充于此：一个SMRT Cell的ZMW只有15万个，提高ZMW可以提到数据产量，提高酶耐受激光的能力也将有助于提高读长并最后提高数据产量。目前一天运行16个SMRT Cell 可产生的原始数据能达到6.4G（400M/cell计算），但单分子测序的优势在于长读长而不是通量。）

举例：
美国能源部对一个微生物进行测序，用二代测序最好的结果可以组装得到58个重叠群contig.，而用PacBio可以直接得到一个contig，一步完成全基因组组装。

美国农业部对羊体内微生物进行测序。用二代测序没能组装起全基因组，最少也有18个contig。用PacBio，用6K长度21x覆盖度，可以组装成单个contig。这说明长序列测序确实可以帮助组装。

另外一个重要问题，GC%对测序覆盖度的影响：对于二代测序技术，GC含量高的地方覆盖度低，即使再提高全基因组覆盖度，但富含GC的区域覆盖度还是难以提高，无法填补。这就造成用二代测序很难完成一些物种的全基因组测序的原因，或者有的全基因组测序结果存在不少gap的原因。

单分子测序平台很适合困难基因组的测序，比如GC含量很高，AT含量很高，多碱基串联重复（如CGG重复），普通测序技术很难获得结果。这个平台对这类很难测序的区域都能平稳的测序。单分子测序结果显示这种技术覆盖度不随GC含量变化而变化，曲线平稳。均一的覆盖度对全基因组测序的完成非常重要。

举例，全长cDNA测序结果。5’端转录本开始，4号外显子，5号外显子，3‘UTR，polyA区。polyA区域100多个A的测序峰非常清晰。然后到套马环区，然后到PolyT 区。。。能测长PolyA对研究RNA的代谢有重要意义，RNA的半衰期和PolyA长度有关，对其稳定性很有意义。

中心粒测序：中心粒的一段序列有很高重复，用Sanger和二代测序都很难得到结果，用PacBio能够完成。
脆性X综合症的大量重复的CGG序列都可以测序。

动态信息——可获得甲基化等修饰信息的例子

PacBio提供实时的测序，一能提供测序结果，即碱基的排列组合，二是可以提供基因修饰的信息（PacBio技术对甲基化的检测可参考Nature Method发表的一篇文章）——其原理在于，当聚合酶合成每一个碱基，都有一个时间段，两个相邻的脉冲峰之间的距离和参考序列的距离可以算一个比值，称为IPD。当模板碱基带有修饰时，聚合酶会慢下来，就像行车过程中遇到路障。两个相邻的脉冲峰之间的距离就会延长。当看到某个碱基IPD比例明显大于1时，就可以推断这个位置有修饰。

德国致命性大肠杆菌爆发事件

由于食物污染了致命性大肠杆菌而导致数千人出现了肠出血性急性腹泻，导致50人死亡。3个研究小组分别对该事件中的爆发性大肠杆菌进行测序，来分析其基因型。

了解PacBio测序系统的最新应用

德国小组采用二代测序，2个样本，参照序列比对测序，聚类分析结果得出是EHEC亚型。

华大小组用另一种二代测序技术进行de novo测序，测序结果发表在新英格兰杂志上，找到了大肠杆菌中出现的外源序列和志贺毒素，论文讨论部分提出，即使找到志贺毒素，也不能完全解释为什么会导致该大肠杆菌株有如此强的毒性。

PacBio与哈佛大学合作，对2711爆发株进行的de novo测序组装。证实是EAEC亚型，结果发表在同一期的新英格兰杂志。测序结果也发现基因组出现了一个外源嗜菌体带入的一段基因，上面有志贺毒素基因。（详细报道：http://www.ebiotrade.com/newsf/2011-8/2011810172027853.htm）

PacBio小组邀请New England Biolabs公司协助对该大肠杆菌株测序结果进行甲基化方面的生物信息学分析。结果表明该基因组上确实有很多甲基化出现（约45000个）。通过排除法，发现爆发株里有CTGCAG motif特有的甲基化，还发现插入的外源序列中还有一段序列类似甲基化酶，可专门对CTGCAG的序列进行甲基化。对CTGCAG甲基化有关的基因表达分析，发现表达上调的基因包括菌毛，鞭毛体和与细胞注入有关的基因，这些结果也许可能解释为嗜菌体侵染而注入一段外源基因，其中包含一种甲基化酶，导致爆发株表达改变，提高对宿主吸附性，连同志贺毒素，而导致毒性升高。最后功能学实验证明，将该爆发株注入兔子，同样出现出血性腹泻症状，而当基因敲除这个甲基化酶，再注入兔子，症状消失。由此可见，正由于Pacbio的第三代测序系统得到碱基序列信息的同时获得了碱基修饰的信息，我们可同时对碱基序列和碱基修饰两方面测序信息进行分析，可以完整解释爆发株的强毒性的基因组机制，为表观遗传学及疾病基因组学开辟了新的研究思路。目前该论文正在接受评议之中。大家可以通过以下厂家网站链接观看关于E.Coli O104爆发株研究的最新系列视频报道，先睹为快。

http://aa314.o1.gondor.io/webinar/uncovering-novel-regulatory-mechanisms-via-a-more-complete-characterization-of-dna-variation/

5hmC的检测

5hmC——非常重要的表观标记，被誉为第6个碱基。是细胞分化和组织发育中的重要的标记。在PacBio测序过程中发现IPD峰值不够明显，需要对其进行富集修饰。经过富集和修饰的序列测序结果可以显著检测出5hmC，甚至还可以检测到单链上（另一链不含）出现的5hmC（hemi-）。PacBio技术的独到之处在于：不单可以区分5mC 和5hmC，还能识别其位于DNA的哪一条链上。（详细报道：http://www.ebiotrade.com/newsf/2011-11/20111123171704271.htm）

超高测序准确度及单分子分辨率——特定序列的SNP检测，稀有突变及其频率测定

定向测序中的SNP检测

高精确，可做稀有SNP的检测。可以检测多个SNP的单倍体型，即两个临近的SNP在同一链上还是在不同链上。由于GC含量不影响单分子测序，片段读长长，可将靶片段准确定位到参考序列上，加上单分子测序的错误随机，没有PCR引入的偏向性系统误差，很容易通过提高覆盖度得到高准确的的数据。Broad研究院经过实验对比得出的结论，PacBio做SNP检测假阳性率低，在后续的SNP验证上是最好的技术手段，该论文即将在Nature Methods上发表，可以先观看以下Broad在今年的AGBT上的相关报道视频：

http://i.youku.com/u/UMTQ2NjcwMTEy/videos

白血病中的突变检测实例

这是数天前（4月15日）发表在Nature上的一篇文章。FLT3过去一直被认为是急性髓细胞白血病（AML）的有效治疗靶标，可患者接受靶向FLT3新药治疗后若复发会产生耐药性，导致科学界对FLT3是否是真正有效靶标产生质疑。

FLT3呈受体结构，有一段激酶区域，还有一段称为ITD的重复序列，ITD上有很多突变，是过去药物筛选的靶标。最新这项研究试图发现ITD突变外部的二级突变与抗药性的关系。

两个基因融合突变造成酪氨酸激酶通路产生的失调。其中一个基因突变会产生二级突变，这种突变会导致病人对激酶抑制剂药物产生抗药性。激酶区域突变有两种不同方式产生，一种是polycolonal突变，另一种是compound 方式产生。不同的突变方式导致对不同药物的不同抗药性。需要有好的方法在临床上区分两种突变产生以个性化用药。

研究发现ITD外部下游区也有很多二级突变产生，和抗药性有关。二级突变产生的频率很低，很难找到，所以不受重视，在很多研究中，也没有将其与抗药性关联起来。这些二级突变的长度超过1kb，故二代测序是测不到的。传统Sanger技术虽然可以了解突变的空间关系，但处理起来非常麻烦，还需要扩增，挑克隆。PacBio技术正好可以很容易解决这个问题。结果表明，在没用药前，ITD下游二级突变出现频率不高，但用药后二级突变出现频率升高。8个例子中，不同的病人出现突变的频率和模式是不同的，其中有的突变频率很低，不到3%。正是由于第三代测序对长片段及稀有突变的高灵敏度高准确度检测，重新证实了FLT3的确是有效的药物靶标。（详细报道：http://www.ebiotrade.com/newsf/2012-4/2012418155854183.htm）

登录Pacbio网站首页（http://www.pacificbiosciences.com/），点击左下角“Resent News”栏相关链接可索取该文的e-print版本及相关信息。

脆性X综合症

脆性X综合征是一种遗传性综合征，伴随着X染色体上一段三核苷酸序列（CGG）的重复扩增。这种扩增导致了一种称为FMR1的蛋白质无法在病人体内表达，而该蛋白质是神经正常发育所必需的。如果一个人含有45-54个重复序列，则被认为是“灰色地带”，而55-200个重复序列被称为前突变，会导致产生RNA毒性，脆性X相关性震颤/共济失调综合征（FXTAS），一种以意向性震颤、步态共济失调和其他症状为特征的迟发性神经变性疾病；200个以上重复序列则被称为全突变，没有成熟的RNA产生，没有功能的蛋白产生。因而CGG重复的个数，会产生不同的临床表征。一代和二代测序技术对于大量扩增的CGG重复（>100）只能生成不连贯的信号，阻碍了研究人员获得单碱基分辨率的测序数据。美国加州大学Davis分校利用单分子测序技术可清楚得测出上游重复序列的个数，另外还发现CGG超过150拷贝以上，整个区域会突然被全部甲基化，这或许为致病机制研究提供了新的线索。（详细报道：http://www.ebiotrade.com/newsf/2011-11/20111110101650521.htm）

有趣的其他应用例子（尚在研发中…）

真正的RNA测序：

在这个技术平台上，如果将DNA聚合酶换成RNA反转录酶，就可以直接对RNA进行测序（不通过cDNA），还可以检测RNA上碱基的分子修饰。这将打开一个全新的研究思路。
图示：1kb测序结果。现在的工作在优化RNA反转录酶。（直接的RNA测序！确实是个有趣的想法！）

其他聚合反应

只要是聚合反应，都有机会应用在这个平台上，例如把Ribosome固定在ZMW上，提供tRNA，就有可能进行蛋白质合成研究。PacBio系统有很高的扩展灵活性。

了解PacBio测序系统的最新应用