|
超长的读长
二代测序的短处在于读长太短。就像拼图游戏,越碎的碎片就越难拼接。虽然提供海量的数据,但是依然不足以完成全基因组拼接。去年在Nature上发表的一篇综述文章指出,二代测序读长太短是其技术的内有问题(fundamental data properties),数学模式所不能解决的。算法已经很成熟,算法再好,也不足以解决这个问题。
PacBio的超长读长,可实现以相对较低的覆盖度达到很好的序列组装。有助于产生较少的重叠群,帮助全基因组组装。还可以获得复杂的DNA重组信息,比如由于断裂造成的融合基因的Breakpoint,cDNA里包含的剪切,内外显子间的关系,都需要很长的读长帮助组装跨越的区域。
因此,对于全基因组de novo测序来说,更适宜用组合的方法,将第三代和第二代测序方式结合。冷泉港去年宣布研发一个软件,能将PacBio结果和二代测序结果结合。三代测序的超长读长,加上二代测序的海量数据(价格低廉),应该是比较好的组合。详细 |
|
|
|
定向测序中的SNP检测
高精确,可做稀有SNP的检测。可以检测多个SNP的单倍体型,即两个临近的SNP在同一链上还是在不同链上。由于GC含量不影响单分子测序,片段读长长,可将靶片段准确定位到参考序列上,加上单分子测序的错误随机,没有PCR引入的偏向性系统误差,很容易通过提高覆盖度得到高准确的的数据。Broad研究院经过实验对比得出的结论,PacBio做SNP检测假阳性率低,在后续的SNP验证上是最好的技术手段,该论文即将在Nature Methods上发表。
观看视频:Pacbio RS在发现或确认SNP中的优势 |
|
|
|
|
|
动态信息
PacBio在与对德国大肠杆菌爆发事件中的爆发株进行de novo测序组装之后,又邀请New England Biolabs公司协助对该大肠杆菌株测序结果进行甲基化方面的生物信息学分析。结果表明该基因组上确实有很多甲基化出现(约45000个)。通过排除法,发现爆发株里有CTGCAG motif特有的甲基化,还发现插入的外源序列中还有一段序列类似甲基化酶,可专门对CTGCAG的序列进行甲基化。对CTGCAG甲基化有关的基因表达分析,发现表达上调的基因包括菌毛,鞭毛体和与细胞注入有关的基因,这些结果也许可能解释为嗜菌体侵染而注入一段外源基因,其中包含一种甲基化酶,导致爆发株表达改变,提高对宿主吸附性,连同志贺毒素,而导致毒性升高。
由此可见,正由于Pacbio的第三代测序系统得到碱基序列信息的同时获得了碱基修饰的信息,我们可同时对碱基序列和碱基修饰两方面测序信息进行分析,可以完整解释爆发株的强毒性的基因组机制,为表观遗传学及疾病基因组学开辟了新的研究思路。详细 |
|
|
|
白血病中的突变检测实例
FLT3过去一直被认为是急性髓细胞白血病(AML)的有效治疗靶标,可患者接受靶向FLT3新药治疗后若复发会产生耐药性,导致科学界对FLT3是否是真正有效靶标产生质疑。FLT3呈受体结构,有一段激酶区域,还有一段称为ITD的重复序列,ITD上有很多突变,是过去药物筛选的靶标。最新这项研究试图发现ITD突变外部的二级突变与抗药性的关系。
研究发现ITD外部下游区也有很多二级突变产生,和抗药性有关。二级突变产生的频率很低,很难找到,所以不受重视,在很多研究中,也没有将其与抗药性关联起来。这些二级突变的长度超过1kb,故二代测序是测不到的。PacBio技术正好可以很容易解决这个问题。结果表明,在没用药前,ITD下游二级突变出现频率不高,但用药后二级突变出现频率升高。8个例子中,不同的病人出现突变的频率和模式是不同的,其中有的突变频率很低,不到3%。正是由于第三代测序对长片段及稀有突变的高灵敏度高准确度检测,重新证实了FLT3的确是有效的药物靶标。详细 |
|
|
|