PacBio RS第三代单分子测序系统全球访谈纪要(四)[心得点评]

主题四:PacBio RS系统在靶向测序和临床诊断中的独到应用

【字体: 时间:2013年04月03日 来源:生物通

编辑推荐:

  AGBT(基因组生物学技术进展年会)2013在今年2月底刚刚结束,会议之后,生物通立即采集更新了众多声名赫赫的顶尖实验室用户就PacBio系统在靶向测序和临床诊断中的应用的看法和心得,令这一全球访谈更加精彩,可别错过!

主题四:PacBio RS系统在靶向测序和临床诊断中有何独到应用?

  • SNP和Indel变异验证、广义单倍体型分析

Mauricio Carneiro:

“任何仪器如果只有随机误差,那反而显得太棒了、太完美了,因为多测几次或者提高覆盖度就可以把随机错误稀释掉。所以当其他人被PacBio的原始高错误率吓退的时候,我反而毫无顾虑。”

目前研究人员对于突变数据的验证一般采用Sequenom质谱、Sanger测序法。虽然这两种方法的准确性很高,但是Sequenom方法对未知位点突变无法进行检测,且很多分析仍然需要借助人工方法,而Sanger测序法通量低、花费大且同样存在人工误差的问题。此外采用多种测序平台进行交叉验证也大大降低了效率,且产生新的突变类型导致更加复杂的分析。所以,最好是利用已有的测序平台直接产生高质量的测序数据,最大程度避免其他方法的交叉验证。“基于这些考虑,我们对PacBio给予了厚望。随着项目进展,现在它已经成为我们的标准工具。”

我们从千人基因组计划产生的SNP数据中挑选了98个已经用其他方法验证过的难测SNP位点,尽管之前没人知道为什么这些位点那么难测,“但事实就是,这些位点在一般其他的测序仪上测的话总是一如既往地出错”,所以这些位点就成了测试测序仪性能的标准。我们分别利用PacBio平台和Illumina MiSeq平台进行对比验证,结果发现PacBio数据有着更好的准确性和假阳性检出率,相对而言是一种更为有效的验证工具。

注: 详情请见参考文献6、参考影像7/10、生物通往期文章1/2/3/10。

Matthew Meyerson:

Broad研究院正努力把PacBio做成基因分型、变异验证与重复实验的平台,并专门为PacBio开发了补充算法,用于纠正其随机误差,并将新算法包含在GATK基因组分析工具包内。

“PacBio单分子测序技术能对基因组中的低频变异进行高效解读,且能够有效弥补Sequenom和Sanger方法的缺陷,可以寻找除已知位点以外的其他漏检稀有突变。”

我们利用PacBio平台对92株成神经管细胞瘤(Medulloblastoma)原代细胞株的全外显子组的Illumina测序结果进行了体细胞变异位点的验证分析。不仅验证了所有发现的SNP,连(在CTDNEP1基因中)短到2 bp的微缺失(Indel)变异也得到了很好的区分和识别。我们最终确认了12个与成神经管细胞瘤发生相关的变异,并发现了一个以前从未发现的突变,为这种疾病的基础研究和临床诊断提供了新的分子标记物。

注: 详情请见参考文献5、参考影像7/10、生物通往期文章1/2/3/8/10。

Swati Ranade:
 
自ENCODE(DNA元素百科全书)信息公布以来,被认为是继HGP之后的又一重大进展,相当于是给人类基因组绘制了一幅3D的Google Map。ENCODE里面提到,基因组中的垃圾DNA非但不是垃圾,而是庞大的控制面板,且存在超长距离的关联。比如通常所说的编码蛋白质的外显子区域只占2%左右,但其实基因组中80%的DNA区域都是活跃的,即非编码区域的功能之前被极大忽视。另外GWAS识别出的SNP变异仅12%位于蛋白编码区,但疾病关联的SNP有60%以上定位于非编码区,这些区域经ENCODE识别具备功能,至少有400个热点值得第一时间深入研究。所以说,ENCODE从基因组入手,GWAS从疾病入手,两者结合,加上个体基因组信息,理论上可以预判疾病发生发展。

“这么一来,以往的研究就显得视野狭窄了。比如以往只关注蛋白编码区的SNP变异,或者仅在编码区中进行SNP串联的所谓‘单倍体型(Haplotype)’,那只能算是狭义的分型。业界渐渐意识到,‘广义单倍体型’才是未来个体医疗真正需要的有效信息,即应该在基因编码区和上下游非编码区同时提取SNP关联,并尽可能在更宽泛的DNA区域建立空间SNP(或Indel)串联信息,因为可能还将涉及基因转座、重组、同源簇等问题。”如果说以往的研究无法关注广义单倍体型是束手于技术,那么如今第三代单分子测序的出现将能在很大程度上为分型领域的研究作出突破。PacBio的长读长特点可以帮助建立更直接更精确的大范围SNP串联,可以在单次测序过程中贯通编码区和非编码区。为了解决靶向捕获问题,PacBio与Agilent合作,针对0.5 M染色体(Chr10+X)和3 M Kinome这些同时包含编码区和非编码区的人类DNA区域,分别尝试了Agilent SureSelect的标准捕获(200-250 bp)和为配合PacBio长读长特点的2 Kb捕获并进行测序比较,最终发现,“PacBio与Agilent SureSelect配合的最大好处是显著提高了对以往难以靶向测序区域的覆盖度,不仅可以在编码区额外发现一些SNP变异,而且同时兼顾了编码区和非编码区的SNP关联”。

此次与费城儿童医院和宾夕法尼亚大学的合作,主要是在HLA分型中应用PacBio的长读长测序特点。通过靶向测序进行HLA分型的意义不言而喻,但目前的确存在一些瓶颈制约,比如因HLA基因群高度密集而导致常规靶向捕获效率低下、因短读长测序定位困难而导致仅能实现在HLA有限的几个外显子中进行SNP/Indel Genotyping。“如果说PacBio与Agilent的合作主要侧重于靶向捕获技术的突破,那么与费城儿童医院的合作则主要侧重于如何在HLA基因簇中进行尽可能全方位的Phasing而不仅仅是Genotyping(即广义单倍体分型)。”在初期方案中,我们先尝试用长程PCR分别对HLA的A、B、C基因座进行扩增,涵盖了所有8个外显子和内涵子及上下游非编码区,可以满足在某个基因座范围内进行Phasing。“我们在20X覆盖度下,可以在距离5 Kb的关联范围内发现成对出现的SNP和Indel亲本杂合型变异,这样的例子有8个。”PacBio甚至还可以在包含高度重复序列的HLA-DRB基因中实现高度覆盖。“随着PacBio测序通量的进一步提升和测序成本的逐步下降,科研人员不光可以对MHC Class I和II的基因进行分型,还将有能力对所有MHC基因座进行大范围分型。”

可以说,PacBio的长读长特点在靶向测序领域引入了一些新颖的应用,除了广义单倍体型外,还可以应对复杂重复、可变剪切、转座重排等,我们还在开发基于TdT末端延伸的方法,可以无需PCR、无需建库(指两端加茎环接头的方式),有望在靶向测序的同时关注碱基修饰信息。

注: 详情请见参考文献10、生物通往期文章1/2/3。

立即索取PacBio RS系统的最新资料

  • 串联重复突变和低频突变检测

Neil Shah:
 
FLT3过去一直被认为是急性髓细胞白血病(AML)的有效治疗靶标,可患者接受靶向FLT3新药治疗后一段时间会复发,即很容易产生耐药性,导致科研人员对FLT3是否是真正有效靶标的论断产生了诸多质疑。

“但我们并没有轻易放弃FLT3。”我们对8位白血病患者进行了分析,这些患者都是在二期临床实验中接受Ambit Biosciences研发的FLT3抑制剂AC220(Quizartinib)治疗后复发的例子,表明患者出现了耐药性。“我们决定用测序的方法对这些患者进行深度解析,看看FTL3耐药性是否跟突变有关,并如何利用突变信息为未来的临床诊断和新药研发提供信息。”

FLT3存在很多内部串联重复(ITD)突变,距离激酶结构域大约800 bp。“我们猜测是否这些突变隐患是一早就存在的,一旦激活就会成为抗药性突变,这样我们就需要对大片段区域进行测序,读长至少需要能应付1000 bp左右的长度,才能保证真实解析突变的重复性和相互之间的位置关联,这样我们自然而然就想到利用PacBio的长读长优势。”

实际应用中,我们用CCS环形一致序列读取模式获得了平均读长1.4 Kb的Reads。“我们对PacBio系统的测序结果非常满意,它帮助我们在病患复发阶段发现了大量的突变组合,远比我们想象得复杂。”“(测序方法)在不远的将来会在临床诊断方案决策过程中起到深远影响,可以为我们提供大量有效的下一代治疗方案。”

在研究过程中我们还遭遇了第二轮挑战,即怎样检测低频突变并从常规的Base Call噪声中凸显出来。“我们知道标准测序法仅能检测20%频率的突变,这显然不能满足我们的需求。”所以我们一开始也不敢确定PacBio是否能应付。“但实际使用下来,我们低估了PacBio,在单分子检测条件下,我们竟然能检测到最低至2.7%的突变。”

“这里需要明确的是,2.7%指的是在所有我们观测的含有活性突变的等位基因中,有2.7%的比例是某一种形式的活性突变,并非是相对正常等位基因的低频突变。”一方面我们的观测样本数足够统计意义,另一方面相比其他方法我们确实从PacBio的长读长数据中获得了更多的信息。“尽管不好估计到底PacBio检测敏感度是多高,但我们保守估计达到了1-3%的低频突变范畴。”

“这个研究成果令我们大开眼界,没想到FLT3的耐药突变谱图如此丰富。”我们比较关注的是,何种耐药条件下突变出现在DNA单链上,抑或何种耐药条件下突变在双链上都有分布,以及何种突变组合对应何种复发之后的其他并发症。“如果能准确了解基因突变出现在何时、何地、何种组合,以及耐药性的并发性类型,那么对于新治疗方法和药物的开发无疑具有重要意义。换言之,我们认为FLT3仍然是当仁不让的白血病潜在靶标,未来在此基础上的二次新药开发还有很长的路要走。” “这些突变对于白血病细胞的生存极为重要。我们认为,如果有能力在这些新发现的FLT3耐药突变上重新进行抑制,我们将有望再次开发出治疗方案,这已成为未来靶向药物研发的趋势,并重燃用于急性髓细胞白血病治疗的FLT3抑制剂的希望。”

用PacBio应对低频突变的例子不止一个。我们在2011年12月参加美国血液学学会第53届年会时就公布过类似的例子,利用PacBio技术检测治疗后复发的慢性髓性白血病(CML)病人中BCR-ABL激酶结构域的稀有突变。“PacBio技术可以从大于850 bp的Amplicon中很好地区分突变类型到底是单倍体型还是二倍体型,对低频突变的检测灵敏度同样高得惊人,我们有一个病人的样本中检测到的两个单倍体型变异的突变频率低至1%。此外,我们还发现了一个新颖的119 bp缺失变异。”

注: 详情请见参考文献9、生物通往期文章1/2/3/9。

Andrew Kasarskis:

“通过对AML患者样品中FLT3基因测序——这些患者接受靶向FLT3基因治疗后复发,我们确定FLT3是一个有效的治疗靶标,并且这也将有助于科学家们更好的理解这种类型白血病的生理机制,从而研发出新型药物。除此之外,我们进行的上百个FLT3单分子测序,也有助于分析低频罕见的耐药性突变。这种技术上的提升能用于识别迟早会在病患临床疗程中出现的耐药性问题,通过了解这些突变,我们能制定出更好的治疗方案。”

注: 详情请见参考文献9、生物通往期文章1/2/3/9。

立即索取PacBio RS系统的最新资料

  • 三联核苷酸异常扩增分析

Paul Hagerman:

脆性X综合症是一类在基因型上非常特殊的疾病,它伴随着X染色体上FMR1基因的非翻译区CGG序列异常扩增。“如果你从宏观的角度去审视这个基因,你会发现(CGG片段异常扩增)与认知力和生殖功能受损相关,是自闭症的其中一个主要诱因,也跟早期卵巢衰竭和单基因神经退行性疾病相关。如果做个统计,我们说到的这些病仅在美国就对应150万确诊患者。想象一下,如果有一套行之有效的筛查手段,那么事实上对应的患者将超过1000万。”

CGG片段异常扩增与发病程度的关联主要体现在重复程度上,重复超过55次(Pre-mutation,前突变)就会出现神经发育障碍的临床表型,超过200次(Full-mutation,全突变)就会导致FMR1基因沉默,出现脆性X综合症,重复越多,症状越明显。另外,异常扩增过程中还涉及突变。“我们最近发现,CGG重复区中出现的AGG突变程度有助于判断新生儿患脆性X综合症的倾向。”比方说,一个携带前突变的母亲在CGG重复区中拥有两个AGG突变,那她生下一个携带全突变等位基因的婴儿的几率在15-20%,但如果她不含有AGG突变,那生下携带全突变婴儿的几率立即上升到80%左右。“我们刚才仅提到了相距30个核苷酸范围内含两个AGG突变的情况,如果把视野在基因组范围内放大,那么差异将是天翻地覆。”大范围序列的CGG重复和突变解读无疑至关重要,“而且用测序法解读CGG的重复次数是最简便的临床诊断方式”。

对脆性X综合症患者的CGG重复区进行测序存在诸多技术挑战,精确解析重复次数以及发现内部突变都不容易实现。“二代短读长测序技术无法胜任这项工作,如果仅能读取几百个核苷酸的长度,那你很容易就陷在CGG重复区内部了。”请注意,这是个100% GC含量的区域,二代测序法根本无法跨越。而Sanger法也无法检测超过100个以上的CGG重复,且生成的都是不连贯的信号,相当于我们无法获得单碱基分辨率的测序数据。何况Sanger法的低效无法切实满足临床高效诊断的需求。也有科学家依赖于Southern Blot和PCR技术,以获得大致的重复长度和AGG突变程度,但当重复区太长时,精确性太差且无法定位AGG。PacBio RS系统的出现确实是基因型异常疾病临床诊断的福音,从原理上讲,单分子测序几乎不受高GC的任何限制,哪怕是100% GC含量,何况长读长的特点完全可以应付高达1000次左右的CGG超重复,还有它的高速。“我是在UC Davis的基因组研究中心听说了PacBio系统,随后拜读了一些PacBio发表的文章,我立即意识到,这就是我们想要的,并迫不及待地想尝试一下”。

我们选择用PacBio的CCS环形比对测序模式提高精确性,从大量扩增的CGG重复序列中产生高质量的测序数据。“我们证实了PacBio可以测超过750个CGG重复片段,并能够精确定位AGG突变。”“这种方法保障了单碱基分辨率,今后也能完整鉴定所有与疾病相关的等位基因,从而有利于准确及时的临床诊断。”

一些携带脆性X突变的患者同时具备前突变和全突变两种形式,即一条染色体上是前突变重复,另一天染色体上是全突变重复,额外还有AGG突变分布,是一种嵌合型突变(Mosaic Mutation),而且情况有些像癌症中的体细胞突变异质性,不同细胞的嵌合型突变类型还不尽相同。含嵌合型突变的患者显然要比仅含全突变的患者给出的临床反馈要复杂得多。“那些含较少重复片段的等位基因或次要等位基因(Minor Alleles)在很多情况下可以起到临床诊断的决定因素。”比如,全突变型等位基因不能产生FMR1蛋白,但另一个前突变类型的等位基因可以产生少量蛋白,那么最终病症显然要轻微得多,但一考虑细胞突变的异质性,治疗方案的制定就显得异常复杂。“所以如果我们能够真真切切地指出那些嵌合型等位基因各自包含的具体信息,就会显著改善我们对临床诊断结果的认识。” “可以想象一下,如果患者仅有一条染色体是全突变模式,而一串相关的等位突变散乱地镶嵌在全突变和前突变两条染色体上,各贡献1%的发病率,那么患者多大程度受到疾病影响完全就由这些等位突变的定位分布形式决定,用常规测序或Southern Blot的方法是无法看到这些精确信息的。之所以说PacBio如此强大,就因为PacBio可以一次看清楚所有的等位突变和定位,无论是稀有的还是常规的。它是单个单个分子测过去,之后的突变分析就变得跟数数那么简单。”

PacBio的单分子实时测序技术可以对大片段重复序列区域进行直接测序,从而可以清楚地分辨出杂合型等位基因。“当我第一次听说这个技术的时候,我立即认识到这正是我们想要的机会。有了这个技术,你可以真正获得每一个不同片段长度的DNA序列信息,并能分辨出99%以上的稀有等位基因信息。”“FMR1基因有太多的跟临床诊断相关的功能特性,我们目前还未一一得知,有了PacBio SMRT测序技术,我们可以对所有这些等位基因进行测序,同时还可以对甲基化状态进行评估。”在测序的过程中发现,DNA聚合酶的实时动力学数据对重复区的周边序列已很敏感。“这些发现为检测CGG重复区域的表观遗传修饰奠定了基础。”

“我们的发现将成为非常重要的科研工具,同时还将是非常重要的诊断工具,有望填补临床筛查的空白或薄弱环节,对携带三联核苷酸重复的人群进行普遍筛查,比如在现有例子中,可以对与神经发育、生殖缺陷、神经退行性疾病发生休息相关的FMR1基因的CGG重复区进行测序筛查。”我们正在把研究成果转化到临床诊断的应用中去,把CGG重复区片段大小、次要等位基因信息、甲基化修饰等等跟临床病患严重性或治疗干预结果对应起来。比如我们最新的研究发现,某种药物的最终疗效就跟病患是全突变型抑或是嵌合型突变相挂钩。“随着对杂合型突变认识的深化,这完全有望成为药物疗效的预测手段。”考虑到通量问题,我们还会适时引入Barcode进行混合样本筛查,“最终的通量可以允许在可接受的价格范围内进行基于基因分型的人群普筛”。

除此之外,我们还希望把PacBio应用到脆性X染色体症的新生儿高通量筛查中去。“这个平台具备快速筛查的潜能,然而其他现行方法无能为力。”之所以需要快速筛查是因为临床上已经具备早期干预的办法,可以让新生儿在确症后立即接受早期治疗。“我们希望在一到两年内开发并验证这套临床诊断或快速筛查方法。我们的目标是把它应用到CLIA(Clinical Laboratory Improvement Amendments,美国临床实验提高修正案)实验室中去,而且义无反顾地去实施。尽管仪器比较贵,但如果能接受上千例的临床诊断或快速筛查,这个费用就会被很好地稀释掉。”

PacBio单分子测序技术还可以应用于其他序列重复关联疾病的临床诊断,比如强直性肌营养不良症(Myotonic Dystrophy)、亨廷顿氏舞蹈症(Huntington's Disease)、弗里德里希共济失调症(Friedreich's Ataxia)、肌萎缩侧索硬化症(Amyotrophic Lateral Sclerosis)、额颞叶痴呆症(Frontal Temporal Dementia)等。“从实用角度而言,长读长测序技术确实可以做到(针对序列重复关联疾病)开发更优越的诊断流程。”

注: 详情请见参考文献7、参考影像1/6/11、生物通往期文章1/2/3/4/7。

Lisa Edelmann:

“尽管这篇文章只相当于一个PoP实验,但它着实拓宽了人们的视野,开始关注临床诊断的一些问题,比如,对大片段重复序列进行直接测序是否有助于判断预后或疗效。”



Vincent Magrini:

三联体核苷酸异常扩增与很多遗传疾病发生相关联,丘脑底核萎缩症(Subthalamic Nucleus Atrophy)就是如此。该病症调控关键基因ATN1第5号外显子上含有CAG三联体核苷酸重复,正常情况下从6个到35个重复不等,一旦超过48个以上就会引发丘脑底核萎缩。

“靶向测序法检测CAG重复将是临床快速诊断行之有效的方法。”CAG区域极易形成发夹结构,二代测序过程中PCR无法正常跨越,且GC含量也相对较高。“但这些困难在单分子测序方法中就不算什么”。

为了响应快速诊断,临床上有可能对混合样本进行测序,所以我们有必要设计Barcode,以便区分混合样本。二代测序法同样也不适合混合样本检测,依赖PCR的测序方式会导致混合样本中不同丰度的模板分子出现极大的扩增效率差异,从而导致最终结果失真。我们针对PacBio容易出现因插入而引起的随机误差的特点,用模拟算法筛选出了14对6位Barcode序列,这些Barcode序列在测序过程中有很高的插入误读容忍度,所以可以在第一时间相互区分出来,然后通过PCR法把Barcode连到待测样本的扩增子上就可以了。

考虑到实验渐进性,我们先做了个模拟实验。我们把14对Barcode加到已知CAG拷贝数的ATN1第5号外显子的扩增产物上,这些扩增子间只有浓度不同,不同浓度对应不同的Barcode,相当于人为在单一样本中引入复杂性。最后我们发现这个方法还是行之有效的,我们用Barcode区分出了不同浓度,最终的PacBio测序结果也能真实还原CAG拷贝数。这一部分的工作我们还在继续,期望这套方法能最终应用到临床快速诊断上。

注: 详情请见参考影像6、生物通往期文章1/2/3。

David Mittelman:

我们致力于在多种遗传病中研究三联核苷酸重复印记,这些疾病包括亨廷顿氏舞蹈症(Huntington's Disease)、脊髓小脑共济失调症(Spinocerebellar Ataxias)等。在这些疾病中,三联核苷酸重复可以连成几百个碱基,不仅如此,重复程度还存在体细胞间差异(Somatic Variation),我们称之为基因组重复区不稳定性(Genomic Repeat Instability)。用测序获得重复区信息是最直接的方法,但目前用一代和二代测序技术都不是很奏效,“而PacBio第三代单分子测序技术却可以在全长重复区段实现完整覆盖,并确保不引入PCR偏好性”。

为了有效区分不同体细胞之间的差异性,我们在测序起始阶段引入Barcode。“PacBio在这方面的应用潜力巨大,它可以单分子的形式完整捕获这些长片段重复区域,从而方便我们细致观察不同细胞间的差异。”确切地说,我们在开发一种针对三联核苷酸重复相关疾病的新型疗法。我们在2009年的PNAS上就发表了该项PoC(Proof of Concept)研究成果,用基因工程改良过的锌指核酸酶来永久性地定向切除并缩短CAG三联子重复序列。“如果你能把重复程度缩到足够小,你就有可能推迟疾病症状的出现。”用PacBio测序法不仅可以衡量锌指核酸酶对三联子重复区的切除效果,还可以研究重复区不稳定性。“PacBio有很多途径可以令其在某个测序领域脱颖而出引领潮流,这个领域目前可以不热门,比如我们说测三联核苷酸重复。在个体诊疗趋势下,不远的将来人们将会在个体中研究遗传印记多样性,这就是PacBio的机会所在。”我们目前的方法还需要PCR扩增,但未来将可以实现直接捕获三联子重复序列,或者至少可以做到仅需少量扩增。“总有一天,技术会强大到在病人身上获取组织样品并直接捕捉所需的DNA序列,然后用PacBio进行单分子测序,这将有助于降低分析噪声。”

注: 详情请见参考影像6、生物通往期文章1/2/3。

立即索取PacBio RS系统的最新资料

  • mRNA可变剪切和病毒变异分型

Frederic Bushman:

HIV-1病毒一直是我们实验室研究的主攻方向。“HIV-1只有一个转录起始位点,却有多种剪切异构体,我们认为是研究可变剪切的非常好的模型。通过研究可变剪切我们可以了解病毒的复制过程。”

测序无疑是研究可变剪切最直接的方式,而且现在测序项目炙手可热,但在选择何种测序平台上,我们在一开始就想了很多。“第二代测序平台生成的片段过短,必须进行片段拼接,而拼接就会失去转录组可变剪切的真实信息,回过头来还是需要通过猜测和推断来分析剪切位点。而单分子测序则不同,其生成的长片段能一次性完成通读,有助于在大范围内对可变剪切位点进行直接分析。”此外PacBio的CCS测序模式能够提供准确度非常高的序列数据,使得转录组可变剪切位点分析更加准确。

我们先将HIV-1的转录组进行反转录,随后用PacBio RS系统进行cDNA测序。通过分析,我们发现了109个HIV-1独有的可变剪切产物,其中两个还编码新的蛋白。我们研究的价值更体现在,我们发现了HIV-1的剪切模式具有很大的异质性,即不同阶段和微环境下剪切模式会随之发生改变。这是一个很重要的发现,从一定程度上揭示了HIV病毒的高度变异性,有望为HIV病毒的反侵染和艾滋病治疗研究提供宝贵线索。

HIV-1病毒是一种典型的RNA病毒,其基因组比目前已知的任何一种病毒基因组都复杂。“PacBio的单分子测序技术从原理上还有突破空间,比如有望直接对RNA进行测序,对于这一点我们翘首企盼。”

注: 详情请见参考文献3、生物通往期文章1/2/3/6。

Michael Brown:

HIV-1病毒的基因组比已知任何其他病毒基因组都要复杂,由于部分HIV病毒会在感染初期逃脱体内的免疫反应,并通过快速的基因组重组而不被免疫系统识别,在受感染者体内存活下来并进一步繁殖。这样在一个感染者体内HIV-1病毒就形成了一个以优势株为主的相关突变株病毒群,即称为准种(Quasispecies),以利于其在不良环境下生存。因此,目前研究认为准种分析与病毒的抗药性有着密切的关系,例如临床医生如果可以方便的获得患者血清中的病毒准种特点,又能清楚的了解不同准种对不同药物敏感性的差别,就便于优化抗病毒治疗药物的选择和方案的制定,从而提高病毒感染者抗病毒治疗的效果。

“尽管二代测序可以提供高通量的测序数据,但是由于读长短,因而不能覆盖整个病毒分子基因组,所以也就不能确定多个突变位点是来源于一个分子还是不同分子。而PacBio长读长测序可以直接轻松跨越整个HIV-1病毒基因组(9kb),因此非常适合发现结构变异。”

埃默里大学(Emory University)AIDS研究中心与赞比亚的研究组进行合作,研究HIV-1病毒在传染的过程中准种的变化。以往他们采用的是单基因组扩增测序技术(SGA),即从病人的血浆中分离病毒并获得其cDNA,然后进行有限稀释直至每个孔里只有一个病毒基因组,再次扩增后进行测序并进行准种分析。利用该方法,在8-10天内只能完成30个病毒基因组的分析。随后他们与我们进行了合作,希望用PacBio尝试以期提高效率和分辨率。“利用PacBio单分子测序,由于每个ZMW即可以对单个DNA分子进行测序,因此在不到90分钟的时间即可完成1000-3000个病毒基因组的分析工作。”

准种分析表明,供体(Donor)体内的HIV-1可以分为6个Cluster,而在被传染的受体内,只检测到其中的一种Cluster。通过与之前的Sanger法的数据进行比较,我们发现PacBio的数据中,12个样本是和之前的Sanger法完全吻合的,而在9个样本中,每个样本会有1-3个碱基的差异。通过对Sanger数据进行进一步分析,结果发现这些差异源于Sanger测序在进行Base Call的时候有的碱基被识别成了R。经过比对矫正,PacBio矫正了原有Sanger数据中的3948个错误的A位点。

注: 详情请见参考影像9、生物通往期文章1/2/3。

Ellen Paxinos:

病毒耐药性突变分型在慢性病毒感染等临床诊断领域具有十分重要的意义。目前一般采用CE测序法,但受限于通量往往只关注重要的突变;二代测序由于采用PCR而存在可靠性方面的担忧,同时不能实现线性定量并胜任低限检测。因此我们在PacBio平台上尝试了HBV病毒的耐药性突变检测,希望能回答两个主要问题,即检测低限在哪和能否线性定量。我们扩增了两个HBV基因组中的一段575 bp和1389 bp,每组片段中其中一个为WT,另一个为Mutant,含有三个位点的碱基突变。然后将WT和Mutant以不同比例混合,然后用PacBio检测不同混合物中突变的频率。“单分子测序的可以检测到低至0.078%的突变频率,并且在不同的混合条件下保持了非常好的线性,并且由于PacBio的长度长可以准确的对病毒突变位点进行分型,这对于HIV-耐药性研究具有重要意义。”

注: 详情请见参考影像8、生物通往期文章1/2/3。

Jonas Korlach:

百日咳鲍特菌(B. Pertussis)是一种病原体,基因组大小为4 M,其中10%的区域为重复元素。尽管市面上有相应的疫苗,但有效性仅有80%,且逃逸疫苗治疗的菌株数量还在进一步上升。该病原体基因组测序记录之前仅有两例,其中一例采用Sanger法测序,用了130000个 Reads,另一例采用454和Sanger混合测序的方法,拼出了300多个Contig,额外还需要10000个Sanger数据进行填补,可见病原体基因组测序在当今仍是难点。

在与荷兰公共健康和环境研究所的合作项目中,我们对9个百日咳鲍特菌菌株进行了测序,其中包括一些疫苗逃逸菌株。基本上,4-8个SMRT Cell就可以测完一个菌株,并拼成一个完整的Contig。“现在我们已经获得了大量导致菌株间差异的结构变异信息。”通过绘制系统进化树,可以帮助我们了解菌株间的亲缘关系和进化次序。在进化树中,早期用Sanger法测序的菌株离其他菌株的关系较远,其中发现有4个转座相关的移动元素(Mobile Element),而用PacBio测序的9个菌株中还发现了其他5个移动元素。

我们还测了几株沙门氏菌(Salmonella),仅用了不到一个星期,其中包括一株10月份在亚利桑那爆发的菌株,在这个菌株中含有两个全新序列的质粒,这些新颖序列现在已经可以用作临床诊断的依据。除此之外,我们同时还观察了表观修饰信息,并发现了一种新颖的碱基修饰——硫代膦酸修饰(Phosphorothiation),即DNA骨架中非桥联的氧原子为硫原子所替代,该修饰可能跟氧应激反应相关。

在与CDC和FDA的合作中,PacBio公司还测了16株利斯特杆菌(Listeria)并发现了一些特有的甲基化谱,其中包含一个在胸腺嘧啶上的修饰。

注: 详情请见参考影像3/5,生物通往期文章1/2/3/4/5。

立即索取PacBio RS系统的最新资料

  • 临床快速诊断实施和无需建库方案

Andrew Brown:

新一代测序技术正在为癌症研究带来一轮前所未有的变革,全基因组范围的信息可以提供一系列分子事件上的表征,这些表征对癌症发生发展和手术预后等的评估意义重大。

OICR已经有两台PacBio RS系统,并正式投入到临床诊断基因组学的应用中。我们需要测试这个系统把它发挥到最佳状态,通过全基因组测序的方法解读癌症基因及其他癌症治疗敏感性或抑制性相关的遗传标记。“到目前为止,共有30多个病人参与了我们的测试,在鉴定出的影响药物疗效的基因列表中,有2个以前从未报道过的可变剪切。随后我们还将扩大关注基因的范围,招募更多地病人参与其中。”

注: 详情请见参考文献1/4/8、生物通往期文章1/2/3。



John McPherson:

OICR的目标是试图建立起一套对癌症病人的测序体系,这样可以帮助医生获取更多信息,辅助做出更恰当的后续治疗方案或临床试验安排,并希望最终能将这套体系应用于对癌症病人的标准护理流程中。“我们希望在3周内就可以反馈结果,这个时间指从病人知情并同意到拿到报告,因此在测序环节的时间需要控制在1-2天。”整个流程包括:病人签署同意书,组织活检、DNA抽提、测序、分析、验证以及同临床医生和研究人员开会给出相关报告。“由于周转时间的限制,PacBio RS系统快速测序能力也是我们选择它的一个主要原因。我们拥有PacBio快一年了,它确实用起来又快又方便。”同时,PacBio的序列无偏好性测序的特点也是一个重要考虑因素。“由于我们需要塑造一套临床诊断系统,我们必须保证在所要检测的任何一个基因上都能达到100%的覆盖率。” “Mate-pair和Paired-ends这些方法需要太多手工作业,何况还需要投入大量的起始量,真的是相对低效。”

我们从PacBio上获得的结果非常好,平均读长在1800 bp左右。我们主要采用CCS环形比对测序模式来确保测序的准确性,并且获得扩增子数百倍覆盖深度的数据。

目前我们已经完成了对15个病人的测序,其中一半的病人19个基因中至少有1个发生了突变。随后我们与加拿大玛格丽特公主医院Lillian Siu的一期临床组合作,主要是用Sequenom的OncoCarta Panel试剂盒对OICR的测序结果进行验证。幸运的是,PacBio没有错过任何一个OncoCarta Panel试剂盒检出的突变,还能额外检出试剂盒未涵盖的新突变。“这就是我们为什么要做测序,我们希望能发现现有的检测试剂盒未涵盖的信息。”

与此同时,OICR还希望他们的测序体系获得CLIA认证。“把它变成CLIA实验室的一部分需要做很多的努力。”其中一个选择就是把PacBio搬到已经成为CLIA标准的医院实验室中去。“不得不靠CLIA实验室去运行和验证仪器。PacBio不会在近期就能投放到CLIA实验室中,但我们正朝那个方向努力。”其他小型测序仪,比如Ion Torrent PGM,由于廉价有可能吸引到CLIA实验室的目光。“但它实在太新了,数据更新太快,CLIA实验室反而不见得能接受,它希望看到一个更为稳定的平台。” 我们的二期测试要和多伦多3家医院合作,需要把研究工作落实到CLIA实验室中,将综合考虑医院的数量、实验室空间和价格等等因素进行更大范围测试和比较。

临床诊断测序模式终将从靶向重测序逐渐向全转录组或全基因组方向转移。加拿大公共卫生系统倾向于把它做成面向所有癌症患者的保健标准,而非简单地收费服务模式。“我希望能很快看到这一天。”

注: 详情请见参考文献1/4/8、生物通往期文章1/2/3。

Janet Dancey:

PacBio在一期实验中的数据确实非常鼓舞人。“我想每个参与的人都会由衷地感叹我们自己的发现,包括那些患者和临床医生。”先期用PacBio系统启动了50个癌症患者的测序工作,使用的平均覆盖度为600X,所有检测基因都100%覆盖,没有漏过任何一个碱基。这些结果增强了我们想把临床诊断测序项目最终付诸实施的信心和决心。“我们目前对PacBio很满意,相比较Sequenom Panel,PacBio不但没有漏检,而且还可以发现额外更多的信息。”

注: 详情请见参考文献1/4/8、生物通往期文章1/2/3。

Eric Schadt:

我在西奈山医院的授权是确保最大程度地利用病人提供的信息,即当病人跨出大门时,我们的临床研究人员需要从大量的电子记录中最大程度地汲取有效信息,从而指导病人得到更好的后续医疗。

西奈山测序平台拥有2台HiSeq 2000、2台HiSeq 2500、1台MySeq、1台PacBio RS、1台Ion Proton,测序平台与遗传检测实验室共享CLIA实验室执照。这意味着可以形成一整套起始流程,从整合一系列组学方法,到建立疾病状态预测模型,到匹配已有药物所对应的关键致病基因,最终帮助发现并改善后续治疗方案。在把海量信息整合的过程中,我们发现依靠PacBio的长读长测序可以帮助我们更好地建立这样空间关联,这个方法无可替代,尤其是在基因组的高度重复区域和高GC含量区域。

因此我们计划将PacBio测序平台逐步应用到开发系列临床诊断标准上,从自闭症开始,接着是携带筛查、新生儿代谢疾病筛查、最终还将发布癌症和其他相关疾病的基因筛查列表,目前该计划正在寻求纽约州政府的批复。我们之前的工作基于国家已批准的方法,即Sanger测序法,用全基因测序的方法发现疾病关联基因的典型突变。“在PacBio的帮助下,我们正在获取国家认可的变异信息之外的包含在基因序列上的其他任何附加突变信息。”

我们在PacBio上已经获得了1200万Reads,测序深度达到10X以上,平均读长为4066 bp,准确性达到99%以上。我们正在关注20种基因,均含有大量重复区域,用短读长测序的方法很难解决,因此必须辅以PacBio。比如在测CACNA1A基因(与某种神经障碍相关)时,PacBio单次读长就可以贯穿两个相隔1 Kb的长重复区域。在测其他三联核苷酸重复时,共10000个重复区,每个重复区含至少50个重复单元,PacBio仅用了10X基因组深度就可以覆盖84%的重复区域。另外,在MHC测序项目中,PacBio找回了在Illumina测序过程中丢失的500 bp区域,并同时找回了在Illumina和454测序过程中同时丢失的杂合子信息。

西奈山CLIA实验室即将获批Illumina/PacBio混合外显子组测序许可证,可以针对5 Mb大小的靶向捕获进行测序,这些区域涵盖大量通常难以测序的复杂基因结构。

注: 详情请见参考影像2/5、生物通往期文章1/2/3/4/5。

Peter Pohl:

GATC Biotech公司从德国联邦教育与研究部BMBF的KMU企业创新资助项目中获资50万欧元,将通过和子公司LifeCodexx合作的模式,在PacBio平台上开发先兆子痫(Preeclampsia,指妊娠24周左右,在高血压、蛋白尿基础上,出现头痛、眼花、恶心、呕吐、上腹不适等症状)临床诊断方案。在德国,先兆子痫发病率在孕妇中占到2-5%,成为准妈妈和未出生婴儿的头号杀手,这个现象不容忽视。我们公司将“立即投入到”PacBio单分子测序平台的方法学研究中。利用单分子测序平台,“临床诊断的费用和周期将会大幅度下降”。

此外,GATC Biotech公司还从德国联邦经济技术部(Federal Ministry of Economics and Technology)获资12万欧元,将和苏黎世瑞士联邦工学院合作开发基于测序法的食品生产环节监控流程,追溯诸如奶酪生产过程中的腐坏问题,在这个项目中也将看到PacBio RS系统的身影。

注: 详情请见生物通往期文章1/2/3。

Paul Coupland:

Sanger研究院首次研发出了一种在PacBio系统上无需文库制备就能完成单分子测序的新技术,所需DNA样品起始量可以低至1 ng。“这是首次实现了DNA单分子的直接测序。”固然,这个新技术可以简化基因组测序的标准流程及减少DNA样品的测序起始量,但最大的好处其实是不再担心文库制备过程中的偏差问题。建库过程中DNA样本往往被扩增上千倍,样本中基因量的线性关系就会出现偏差,用测序法进行定量就会受到影响。所以说无需建库过程将大大提高测序的精确性,“你测序的样品就是你手上实实在在的样品”。“在读长和精度方面不会有负面影响,因为PacBio已经是单分子测序模式了,这个方法只不过是跳过了文库制备过程,从而直接进入测序环节。”

“我们利用这种新方法,完成了病毒和细菌的基因组测序,发现即使是没花大力气进行条件优化,我们也能鉴定出是何种生物,并且就算这些生物体内带有一些特殊的基因或质粒(决定抗生素耐药性),或者譬如特殊DNA碱基修饰之类的遗传信息,都不会影响基因组测序。”

“这项技术通过优化,将能快速、高效地识别医院和其他医疗场所中的细菌和病毒,具有很大的应用潜力。而且这也将能提升序列的可信度,因为这一过程无需构建文库。” 我们希望无需建库法可以在临床诊断场合快速应用起来。“比如从一根药用棉签中就可以找出到底病人身上有什么样的抗生素抗性基因。”

注: 详情请见参考文献2、生物通往期文章1/2/3。

Harold Swerdlow:

无需建库法能直接利用非常有限的DNA样品,但同时也需要你在通量上做出一些放弃。“无需建库法不适合那些需要得到很多Reads的项目,这是需要掌握的核心概念。但总有些项目你不需要这么多Reads,我们说这个技术可能目前还比较小众,却总有一天会在某些应用上非常管用。”比如仅用了0.08%的覆盖率我们就准确鉴定出了一种植物病原菌。还有诸如疫情爆发、急性病检测等一些需要快速鉴定的场合。法医取证可能又是另一种情形,比较讲究“证据链”。“法医实验室中的样品很容易污染或误混合,但如果拿到样品后直接测序,就不会有此类担忧,证据链也得到了有力保障。”

注: 详情请见参考文献2、生物通往期文章1/2/3/4/5。

立即索取PacBio RS系统的最新资料

参考文献

1. Cancer genomics: technology, discovery, and translation. Tran B, Dancey JE, Kamel-Reid S, McPherson JD, Bedard PL, Brown AM, Zhang T, Shaw P, Onetto N, Stein L, Hudson TJ, Neel BG, Siu LL. J Clin Oncol. 2012 Feb 20;30(6):647-60.
http://jco.ascopubs.org/content/30/6/647.long
2. Direct sequencing of small genomes on the Pacific Biosciences RS without library preparation. Coupland P, Chandra T, Quail M, Reik W, Swerdlow H. Biotechniques. 2012 Dec;53(6):365-72.
http://www.biotechniques.com/BiotechniquesJournal/2012/December/Direct-sequencing-of-small-genomes-on-the-Pacific-Biosciences-RS-without-library-preparation/biotechniques-338089.html
3. Dynamic regulation of HIV-1 mRNA populations analyzed by single-molecule enrichment and long-read sequencing. Ocwieja KE, Sherrill-Mix S, Mukherjee R, Custers-Allen R, David P, Brown M, Wang S, Link DR, Olson J, Travers K, Schadt E, Bushman FD. Nucleic Acids Res. 2012 Nov 1;40(20):10345-55.
http://nar.oxfordjournals.org/content/40/20/10345.long
4. Feasibility of real time next generation sequencing of cancer genes linked to drug response: Results from a clinical trial. Tran B, Brown AM, Bedard PL, Winquist E, Goss GD, Hotte SJ, Welch SA, Hirte HW, Zhang T, Stein LD, Ferretti V, Watt S, Jiao W, Ng K, Ghai S, Shaw P, Petrocelli T, Hudson TJ, Neel BG, Onetto N, Siu LL, McPherson JD, Kamel-Reid S, Dancey JE. Int J Cancer. 2012 Sep 5.
http://onlinelibrary.wiley.com/doi/10.1002/ijc.27817/abstract;jsessionid=C9FFCA38E4B0A24606BDAC82CA19C6AE.d01t04
5. Medulloblastoma exome sequencing uncovers subtype-specific somatic mutations. Pugh TJ, Weeraratne SD, Archer TC, Pomeranz Krummel DA, Auclair D, Bochicchio J, Carneiro MO, Carter SL, Cibulskis K, Erlich RL, Greulich H, Lawrence MS, Lennon NJ, McKenna A, Meldrim J, Ramos AH, Ross MG, Russ C, Shefler E, Sivachenko A, Sogoloff B, Stojanov P, Tamayo P, Mesirov JP, Amani V, Teider N, Sengupta S, Francois JP, Northcott PA, Taylor MD, Yu F, Crabtree GR, Kautzman AG, Gabriel SB, Getz G, Jäger N, Jones DT, Lichter P, Pfister SM, Roberts TM, Meyerson M, Pomeroy SL, Cho YJ. Nature. 2012 Aug 2;488(7409):106-10.
http://www.nature.com/nature/journal/v488/n7409/full/nature11329.html
6. Pacific biosciences sequencing technology for genotyping and variation discovery in human data. Carneiro MO, Russ C, Ross MG, Gabriel SB, Nusbaum C, DePristo MA. BMC Genomics. 2012 Aug 5;13:375.
http://www.biomedcentral.com/1471-2164/13/375
7. Sequencing the unsequenceable: Expanded CGG-repeat alleles of the fragile X gene. Loomis EW, Eid JS, Peluso P, Yin J, Hickey L, Rank D, McCalmon S, Hagerman RJ, Tassone F, Hagerman PJ. Genome Res. 2013 Jan;23(1):121-8.
http://genome.cshlp.org/content/23/1/121.long
8. The genetic basis for cancer treatment decisions. Dancey JE, Bedard PL, Onetto N, Hudson TJ. Cell. 2012 Feb 3;148(3):409-20.
http://www.cell.com/retrieve/pii/S0092867412000207
9. Validation of ITD mutations in FLT3 as a therapeutic target in human acute myeloid leukaemia. Smith CC, Wang Q, Chin CS, Salerno S, Damon LE, Levis MJ, Perl AE, Travers KJ, Wang S, Hunt JP, Zarrinkar PP, Schadt EE, Kasarskis A, Kuriyan J, Shah NP. Nature. 2012 Apr 15;485(7397):260-3.
http://www.nature.com/nature/journal/v485/n7397/full/nature11016.html
10. 137-P: SINGLE MOLECULE REAL-TIME SEQUENCING OF FULL LENGTH HLA CLASS I GENES – THE PROMISE AND CURRENT REALITY Curt Lind, Kate Mackiewicz, Jamie Duke, Ariella Sasson, Swati Ranade, Anand Sethuraman, Jason Chin, Jeff Robinson, Dimitri Monos. Human Immunology. Volume 73, Supplement, October 2012, Pages 135. ASHI 2012 Puerto Rico Abstracts Issue.
http://www.sciencedirect.com/science/article/pii/S0198885912004284

参考影像

1. Customer Story: Exploring the Genetics of Fragile X Syndrome, Paul Hagerman (UC Davis)
2. PacBio AGBT 2013 Eric Schadt
3. PacBio AGBT 2013 Korlach-Webinar
4. Virtual Poster – Barcodes Allow for Sample Multiplexing with SMRT DNA Sequencing, Kevin Travers (Pacific Biosciences)
5. Virtual Poster – Evaluating the Potential of New Sequencing Technologies for Genotyping and Variation Discovery in Human Data, Mauricio Carneiro (Broad Institute)
6. Virtual Poster – Genome Variation in Chronic Viral Infection - SMRT Sequencing for HCV, Ellen Paxinos (Pacific Biosciences)
7. Virtual Poster – Single-Molecule HIV-1 Full Genome Sequence from Linked Transmission Pairs, Ellen Paxinos (Pacific Biosciences)
8. Webinar: Data Processing and Analytics for Follow-up Validation in Resequencing Projects, Mark DePristo (Broad Institute)
9. Webinar: Sequencing The Unsequenceable - Expanded CGG-repeat alleles of the fragile X gene, Paul Hagerman (UC Davis, School of Medicine)

生物通往期文章

1. PacBio RS第三代单分子测序系统全球访谈纪要(一)
2. PacBio RS第三代单分子测序系统全球访谈纪要(二)
3. PacBio RS第三代单分子测序系统全球访谈纪要(三)
4. PacBio碱基修饰分析标识微生物、病原菌的表观遗传学标志
5. 单分子测序技术助力欧洲大肠杆菌研究
6. 单分子测序揭示艾滋病毒可变剪切新模式
7. 单分子测序助力脆性X综合征的研究
8. 单分子测序助力髓母细胞瘤外显子组测序研究
9. 第三代测序技术找到治癌耐药性罕见突变
10. 第三代测序:单分子测序在基因分型与突变验证中的应用

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号