PacBio测序技术帮助萤火虫研究团队获得完整高质量线粒体基因组

【字体: 时间:2016年12月23日 来源:

编辑推荐:

  美国MIT的Dr. Jing-Ke Weng团队采用PacBio第三代单分子测序技术对萤火虫 Photinus pyralis 进行基因组测序,宣布已经完整解码了萤火虫的线粒体基因组,之后将继续完成整个全基因组的测序与组装。

  

SMRT Grant项目是美国PacBio公司每年一次为那些研究有趣的基因组研究人员提供资助的项目。大家可能还记得今年的冠军—中国科学家卓仁英老师带领的团队进行的具有重金属超富集能力的东南景天的测序项目。当时的亚军项目萤火虫基因组,也是非常有意思的研究,虽然没有获得SMRT Grant,但是通过Experiment.com 他们也同样成功募集了实验经费,并且目前已经取得不错的进展。

该项目主要的提出者是美国MIT的Dr. Jing-Ke Weng组建的团队。这个团队由美国的数个顶尖大学的优秀研究团队构成,目的是为了测序并分析萤火虫基因组。团队由擅长萤火虫进化与行为,生物发光的生化与进化,系统发生学,基因组进化以及生物信息学的多名研究人员组成。*为重要的是,他们都非常喜欢萤火虫。

那么,目前他们取得了哪些进展呢?在获得了项目经费后,他们采用PacBio第三代单分子测序技术对萤火虫 Photinus pyralis 进行基因组测序,他们于今年11月宣布已经完整解码了萤火虫的线粒体基因组,之后将继续完成整个全基因组的测序与组装。


 
图一 Photinus pyralis 线粒体基因组中的17,082个碱基对

与细胞核中的线性基因组不同,线粒体基因组实际上是一个连续的环状DNA。上图显示的就是以天然环状形式排列的所有17,082个碱基对。其中包含13个编码蛋白基因(绿色),2个核糖体RNA基因(蓝色)和23个转运 RNA基因(橙色)。那么所有这些线粒体基因在做什么呢?

还记得线粒体是细胞的发电室吗?这是一个很有趣的比喻,事实也确实如此。你知道真实的线粒体中就有电流以及螺旋的机械马达吗?这些电流和泵被叫做电子传递链,他们把我们每天吃的食物(以能量储存分子ATP的形式)转化成能量。萤火虫也是一样的,他们需要线粒体能量度过每一天。不仅如此,萤火虫通过生物性发光的化学反应发光的时候也是直接使用ATP。所以,把线粒体基因组中的基因叫做发电室基因也就不奇怪了,这意味着这些线粒体基因编码的分子机器和网络构成了电子传递链。

但是只有13个蛋白编码基因就可以了吗?实际上还差得远。一个线粒体由上千种不同的蛋白组成,其中大部分基因储存在细胞核中的主要基因组中。

除了萤火虫线粒体基因组中的13个基因,上图中灰色的部分都代表什么呢?实际上还有两个非基因区域,AT富集区(此区域含有较多的A和T)和串联重复单元("Tandem Repeat Unit",或叫做TRU)。前者是被认为是线粒体基因组复制起始位点,后者是在其他萤火虫线粒体基因组中也被报道过的重复元件。Photinus pyralis萤火虫的TRU(而不是其他萤火虫)似乎是色氨酸tRNA的重复,但目前它是否有何意义还不清楚。

图二 萤火虫线粒体基因组中的AT-rich区域和TRU区域

这个TRU重复元件由12个76bp的重复单元加上36bp的部分重复单元构成,总共组成了871bp长的重复元件。之前作者通过NGS获得的线粒体草图中,这个区域是存在问题的。短读长序列在此区域无法组装,后来证明这个有问题的区域就是TRU。那么PacBio reads是怎么解决的呢?非常完美!作者发现了一个3733bp的长PacBio read扫描了完整的TRU区域。看如下的真实read。如果你仔细看,就能看到重复的TRU区域。


 
图三 3733bp长读长扫描重复序列区域

通过用PacBio read取代之前线粒体基因组草图中的错误TRU区域,作者得到了完整的环形线粒体基因组。

但是,可能有人会问,PacBio测序不是有13%的错误率吗?在上面提到的那个3733bp的read里面,岂不是有大约500个bp的错误被引入?事实上,PacBio可以通过不同reads间来进行矫正,或者是直接进行环形多次读取来进行矫正。而PacBio测序深度达到30X时,其准确率即可达到QV50(99.999%),并且随着深度增加,其准确率还可以进一步提升!可与Sanger法测序媲美!我们今天所提到的这个3733bp就是采用了环形一致性测序来解决错误率的问题。


 
图四 PacBio CCS测序原理

如上图所示。DNA聚合酶(上图中显示为灰色的部分),沿着哑铃型的文库DNA进行DNA单链的复制。黄色部分表示DNA双螺旋的一条单链,而紫色部分表示互补链。绿色部分表示单链DNA接头序列,用于聚合酶起始复制过程。聚合酶沿一个方向复制,一个"polymerase read"代表着仪器读取出的原始数据,包括黄色和紫色部分以及接头序列。

所以,虽然一个read中的错误率是13%,但并不是很高。一个read可以跨越黄色和紫色链多次,所以这些黄色和紫色链的序列可以被视为“subread”。将这些subreads整合到一起,随机的错误就消失掉了,然后可以得到超低的一致性错误率。

团队中的博士生,Tim Fallon说:“在我们的研究中,上述用于解决萤火虫线粒体基因组TRU重复区域的read大约绕了5圈(~9.5个subreads),当使用PacBio的一致性测序方法时,获得了错误率几乎可以忽略的“CCS”read。在*终的CCS read的3733个碱基中,完全没有错误。与Illumina测序的 0.2%的错误率相比,同样长度的Illumina read上将会产生7个错误。所以,这个PacBio CCS read比*长的Illumina read还要长10倍,同时还有更低的错误率。是不是还不错呢?”
   
Tim Fallon还提到:“虽然这样的长读长序列(9.5x3733bp)在我们所用的20kb+长片段文库中可能只占很小的一部分,我们粗算,大约1/10000,但在此案例中,这样的一个CCS read被证明确实成为了关键的工具来帮助我们解码萤火虫线粒体基因组”。

这是该团队目前取得的进展,他们还在不断努力中,目前已经预定了30X以上的PacBio测序用于获得参考级的萤火虫全基因组。敬请关注!

更多信息可访问:https://experiment.com/u/efQ0oA

中国地区PacBio独家代理商基因有限公司,欢迎您索取PacBio测序仪的更多详细资料

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号