如何解决RNA-seq量化误差?

【字体: 时间:2015年09月08日 来源:生物通

编辑推荐:

  九月四日,英国爱丁堡大学的Christelle Robert和Mick Watson在国际知名生物学期刊《Genome Biology》发表的一项研究,采用12种常见的方法,评估来自RNA-Seq的基因表达,发现有几百个基因的表达被一种或更多方法所低估。研究人员继而提出了一种两阶段的RNA-seq数据分析法,并将这种方法应用于最近发表的小鼠癌症研究,证实这种方法能够从被丢弃的数据中,提取到相关的生物学信号。

  

生物通报道:RNA-Seq已经成为测量基因表达的标准,以及用于人类疾病研究的一种重要技术。基因表达量化分析涉及,测序序列与一个已知基因组或转录组参考序列的比对。这种量化的准确度取决于,序列中要有足够多的独特信息,才能使生物信息学工具能够准确地将测序序列分配到正确的基因位置上。

九月四日,英国爱丁堡大学的Christelle Robert和Mick Watson在国际知名生物学期刊《Genome Biology》发表题为“Errors in RNA-Seq quantification affect genes of relevance to human disease”的研究成果。在这项研究中,研究人员采用12种常见的方法,评估来自RNA-Seq的基因表达,发现有几百个基因的表达被一种或更多方法所低估。研究人员继而提出了一种两阶段的RNA-seq数据分析法,并将这种方法应用于最近发表的小鼠癌症研究,证实这种方法能够从被丢弃的数据中,提取到相关的生物学信号。延伸阅读:发现RNA-seq隐藏信息的新方法

转录组学是帮助研究人员了解各种疾病分子基础的一种重要途径。多年来,芯片一直是基因组表达分析的中坚力量,现在,RNA-seq已经成为转录组分析的标准方法,出现在成千上万的生物医学文献出版物中。

高通量的新一代测序仪,通常可以非常低的成本输出上亿个序列读长,RNA-Seq将这些测序仪应用于RNA(已被转化为cDNA)。其结果是,研究人员可以根据样本,非常低廉地产生上亿个序列读长,从而使它们能够测量基因表达和重建剪接异构体。现在,RNA-Seq对于许多大型功能注释项目非常的重要,如ENCODE——一个大型的跨国项目,旨在确定人类基因组中的功能元件。

目前,有许多生物信息学方法用于RNA-Seq定量——未加工的测序序列到基因表达估量的转换。最流行的方法包括,使用拼接校准软件,如TopHat或STAR,将测序序列与参考基因组(或转录组)比对。校准步骤是非常计算密集型的,每一个样品要花费几小时的时间,取决于选择的工具和参数。其结果是,每个读长(或片段)被指定为参考序列中的零个、一个或多个假定的位置。

了解Ion AmpliSeq转录组方案的更多信息

定位在多个位置的测序序列,被描述为多定位;此外,任何给定的定位位置都可能与注释中的多个基因重叠,这些被描述为模糊定位的序列读长。如何处理和报告多定位/模糊的序列读长,取决于选择软件的,是RNA-Seq量化误差的一个主要来源。给定一组比对,需要额外的工具来将序列读长分配到基因中,以量化基因表达。

短序列读长的校正是一个复杂的问题,在RNA-Seq中,基因家族进一步加剧了这一情况。有许多基因成员具有相同或接近相同的序列,基因家族往往是富集了多定位的序列读长;因此,RNA-Seq的量化结果取决于校准软件的选择、参考的选择、大量的参数和算法细节。量化工具的选择也有很大的影响。

最近,Patro等人描述了一种新的方法,构建了转录本内的一种独特的kmers指数,并用其来评估直接来自原始读长的基因表达。这种算法比其他方法的速度快25倍,具有相当的精度。然而,它无法发现新的转录异构体或剪接点(RNA-Seq的一个关键好处),并依托kmers,这必然小于读长长度,很可能会出现多定位序列读长引起的相同问题。

RNA-Seq的关键在于,假设这种方法会产生基因表达的可靠测量,最近的一篇论文表明,可能并非如此。在这项研究中,研究人员测试了RNA-Seq量化的生物信息学方面所引入的偏差,也就是说,原始测序序列读长到基因表达估量的转换。研究人员应用12种常见的方法,来评估RNA-Seq数据的基因表达,并表明有数百个基因的表达被一种或多种方法所低估。这些基因当中有许多基因与人类疾病有关,而且,研究人员描述了它们的功能。

研究人员继续提出了一种两阶段的RNA-Seq分析法,并将这种方法应用于一项最近发表的小鼠癌症研究,证明能够从已被丢弃的数据中提取到相关的生物学信号。

(生物通:王英)

生物通推荐原文摘要:
Errors in RNA-Seq quantification affect genes of relevance to human disease
Abstract
Background
RNA-Seq has emerged as the standard for measuring gene expression and is an important technique often used in studies of human disease. Gene expression quantification involves comparison of the sequenced reads to a known genomic or transcriptomic reference. The accuracy of that quantification relies on there being enough unique information in the reads to enable bioinformatics tools to accurately assign the reads to the correct gene.

Results
We apply 12 common methods to estimate gene expression from RNA-Seq data and show that there are hundreds of genes whose expression is underestimated by one or more of those methods. Many of these genes have been implicated in human disease, and we describe their roles. We go on to propose a two-stage analysis of RNA-Seq data in which multi-mapped or ambiguous reads can instead be uniquely assigned to groups of genes. We apply this method to a recently published mouse cancer study, and demonstrate that we can extract relevant biological signal from data that would otherwise have been discarded.

Conclusions
For hundreds of genes in the human genome, RNA-Seq is unable to measure expression accurately. These genes are enriched for gene families, and many of them have been implicated in human disease. We show that it is possible to use data that may otherwise have been discarded to measure group-level expression, and that such data contains biologically relevant information.


 

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号