评估转录组从头组装准确度的新方法

【字体: 时间:2014年12月30日 来源:生物通

编辑推荐:

  RNA-Seq技术,能够进行大规模的转录组分析,从而彻底改变了基因组未测序物种的研究。但是,挑选最准确的组装还是很有挑战性的,为了解决这一挑战,来自加州大学伯克利分校、威斯康星大学、印第安大州立大学等处的研究人员,在最近的《Genome Biology》,提出一种新的评估方法。

  

生物通报道:RNA-Seq技术,能够进行大规模的转录组分析,从而彻底改变了基因组未测序物种的研究。为了研究这些转录组,首先我们要通过从头转录组组装确定一组转录本序列,利用RNA-Seq读取数据重建转录本序列,无需基因组序列信息的帮助。目前,一些可用的从头转录组组装软件,许多是为Illumina平台数据设计,而其他一些则针对Roche 454 Life Science平台数据。这些组装软件,与它们相当大的用户可调参数集相结合,可为一个单一数据集生成大空间的候选组装件。然而,如何在这一空间中选出最准确的组装——特别是当真实值(ground truth)是未知时,仍然是具有挑战性的。

最近的许多研究已经致力于评估转录组的从头组装,延伸阅读:Nature Biotechnology报道最新基因组组装方法。在这些研究中使用的组装评估方法可被分为两大类:基于参考序列和无参考序列。基于参考序列的评估方法,使用先前已知的序列进行计算。例如,在组装元件和参考转录本序列之间建立一种对应关系之后,我们就可以计算出与参考转录本精确匹配的一部分组装元件,和组装元件相匹配的一部分参考转录本,或者这两者的组合(例如F1测度)。除了转录组,基因组和蛋白质序列也被用作组装评估的参考序列。

然而,在大多数从头组装的情况下,参考序列是不可用的或不完整的,或者相当偏离目的样本的真实性,这使得组装评估任务更加的困难。在这种情况下,必须借助于无参考序列评估测度。常用的无参考序列评估测度包括,中值重叠群长度、重叠群数量和N50。不幸的是,这些测度都很简单,往往会产生误导性。例如,N50,最流行的一种无参考序列评估测度,可以通过小组件而最大化。

这种测度的动机是,更好的组装应该来自于较大的输入读取之间重叠数,因此将有更多的读取被组装为更长的重叠群。然而,我们很容易看出,通过将所有输入读长连接成一个单一重叠群而构建的一种小组装,将取这种测度的最大值。总之,N50测量的是重叠群的连续性,而不是它们的准确性。其他过分简单的无参考序列测度,对于组装的精确度可能同样有误导性,但是有研究证明,当组装包括“singletons”(即来自单个读取的重叠群)时,一些测度可能提供一定的信息。

最近在《Genome Biology》发表的一项研究中,来自加州大学伯克利分校、威斯康星大学、印第安大州立大学等处的研究人员,通过提出DETONATE(DE novo TranscriptOme rNa-seq Assembly with or without the Truth Evaluation)方法和软件包,改进了最先进的转录组组装评估测度。DETONATE由两部分组成:RSEM-EVAL和REF-EVAL。RSEM-EVAL,DETONATE的主要组件,是一种基于新型概率模型的无参考序列评估方法,只依赖于一个组件和用来构建它的RNA-Seq读长。

RSEM-EVAL与最近的方法相似,使用统计模型来评估或构建基因组和宏基因组组装,但是,正如本文将要讨论的,由于转录本和可变剪接的不同丰度,它必然更加复杂。不同于简单的无参考序列测度(如N50),RSEM-EVAL可结合多种因素。这个值可以用来选择一个最佳的组装软件,优化一个组装软件的参数,引导新的组装软件设计为一个目标函数。此外,对于组装中的每个重叠群,RSEM-EVAL提供一个值,可评估该重叠群如何由RNASeq数据支持,并可以用来过滤不必要的重叠群。

REF-EVAL——DETONATE的第二组件,是基于参考序列测度的一种工具。与现有参考序列为基础的测度相比,它为组装精确性提供了一种更为精细的视图。

研究人员已经对真实和模拟数据进行了大量实验,来证明RSEM-EVAL值的价值。首先,他们围绕着一个单一“真正”组装,产生了一系列扰动组件,并且表明,RSEM-EVAL在最高得分的组装中最接近于真实值。第二,他们对多个数据集超过200个组装计算了RSEM-EVAL值和REF-EVAL基于参考序列测度,他们发现,RSEM-EVAL值一般与基于参考的测度有很好的相关性。这两个最初实验的结果表明,RSEM-EVAL评分可准确地评估从头转录组组装,尽管不知道真实值。第三,与几种可供选择的无参考和比较参考为基础的测度相比,这项研究展示了RSEM-EVAL在准确性、适用性和运行要求方面的优势。

最后,作为使用RSEM-EVAL值的一个演示,研究人员根据这一指南,组装了再生蝾螈肢体的转录组。与先前研究中组装方法所发现的基因相比,这次新进行的组装,让研究人员发现了参与蝾螈肢体再生过程的更多基因。

(生物通:王英)

生物通推荐原文摘要:
Evaluation of de novo transcriptome assemblies from RNA-Seq data
Abstract: De novo RNA-Seq assembly facilitates the study of transcriptomes for species without sequenced genomes, but it is challenging to select the most accurate assembly in this context. To address this challenge, we developed a model-based score, RSEM-EVAL, for evaluating assemblies when the ground truth is unknown. We show that RSEM-EVAL correctly reflects assembly accuracy, as measured by REF-EVAL, a refined set of ground-truth-based scores that we also developed. Guided by RSEM-EVAL, we assembled the transcriptome of the regenerating axolotl limb; this assembly compares favorably to a previous assembly. A software package implementing our methods, DETONATE, is freely available at http://deweylab.biostat.wisc.edu/detonate.

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号