-
生物通官微
陪你抓住生命科技
跳动的脉搏
单分子实时测序技术帮助大猩猩上头条
【字体: 大 中 小 】 时间:2016年04月12日 来源:生物通
编辑推荐:
4月初,大猩猩基因组的研究成果又上了一次头条,还是《Science》杂志的封面。咦?怎么有个“又”字?原来,在2012年,大猩猩基因组已经上过《Nature》的头条。一般来说,一次头条已经不容易,大猩猩凭啥上两次。
4月初,大猩猩基因组的研究成果又上了一次头条,还是《Science》杂志的封面。咦?怎么有个“又”字?原来,在2012年,大猩猩基因组已经上过《Nature》的头条。一般来说,一次头条已经不容易,大猩猩凭啥上两次。
原来,研究人员利用PacBio单分子实时测序技术产生的长读取,第一次发现了之前错过的一些基因和遗传变异形式。现在他们以接近小鼠和人类基因组的高质量,完成了西部低地大猩猩(Western lowland gorilla)的基因组测序和组装。
华盛顿大学基因组科学教授Evan Eichler领导的研究团队在论文中解释了,为什么以往的大猩猩和其他哺乳动物基因组组装一直支离破碎、不完整、并且有可能具有误导性。
大规模平行测序技术,在提高速度,改善精度和降低基因组测序成本的同时,通常只能生成短读长序列,在测序后采用基因组组装软件将这些序列拼接到一起。这些软件试图利用序列之间的重叠来重建原基因组。不幸地是,人类和其他灵长类动物基因组中常见的长重复DNA,会使组装软件发生混乱,将基因组打碎成非常小的片段。
Eichler谈到,采用短读长技术构建的原西部低地大猩猩基因组被打碎成40多万个片段。“这些缺口并非随机,而是集中在重复序列位点。如果遗传学家不能捕获这些重复序列,确定基因组中的一些结构差异,他们将会难以了解基因的组织并比较物种内及跨物种的遗传变异,”他说。
在新的研究中,他们采集了一只名为Susie的雌性大猩猩的血液样本,利用PacBio SMRT测序技术和最新的P6-C4试剂,得到了Susie基因组的75x覆盖度的数据。之后,他们使用FALCON软件和已有的Quiver算法进行de novo 组装和纠错。
利用长读长进行de novo组装而非简单地将序列与人类参考基因组比对,研究人员可以填补序列缺口,并更加细致地查看结构变异,重复序列以及逆转座子。
不过,研究人员仍然遇到令人头疼的异染色质区,棘手的连续片段重复序列,其中往往含有较短的组装contigs。不过整体的组装效果看上去比最初的gorGor3参考基因组更加连续和完整。
在原来的大猩猩基因组组装结果中,最长的contig只有192kb,而最新报道的三代测序组装结果中,Susie3基因组中则包含超过36.2M个碱基的contigs。Contigs的数量从464,000个大幅下降至16,100个。
当把contigs排列到基因组中时,新的基因组变得更大,达到29亿个碱基,而原来只有27亿个。尽管如此,研究团队可以填补或缩小原先存在的434,000个序列缺口中的90%以上。gorGor3基因组中丢失掉的外显子有87%被重新找回。
通过此次分析,研究人员获得了关于大猩猩种群历史的新线索,更详细的基因注释以及大猩猩基因组中的调控元件,发现了人类和大猩猩基因组中的差异序列,包括那些编码感知器官,皮肤角蛋白,免疫力,代谢及其他途径相关的组件的序列。
Eichler表示:“我研究人类和类人猿基因组的动机就是,了解是什么给我们打上了一个物种的记号。我想看到重新测序包括黑猩猩和红毛猩猩在内的所有大猩猩基因组,获得区别人类和类人猿的遗传变异的全面视图。我相信存在的遗传变异比我们以往认为的要多得多。第一步就是找到它。”
研究团队还同样注意到,随着其他草图基因组组装(包括黑猩猩基因组)被更新、改善以及更多的注释,还会出现更多其他的进化和生物学线索。
Eichler和他的同事评价到:“作为医学研究人员,如果我们依靠短读长序列,就像我们的盔甲出现了裂缝。在大猩猩和人类基因组上的工作清楚证明了大片段的基因组变异是无法通过短读长的方法去发现的。长读长序列正在使基因组变异研究达到以往难以企及的全新高度”。
如果你希望了解PacBio SMRT测序技术的更多精彩应用,可千万别错过2016年5月17-18日在上海举办的第三届全国PacBio用户交流会。届时将会由国内外专家为大家带来精彩的三代测序技术相关的科研报告和经验分享,更有PacBio公司的多位专家精心讲解针对不同应用的实验设计及生物信息培训和案例分析。立即索取邀请函>>