-
生物通官微
陪你抓住生命科技
跳动的脉搏
三篇文章介绍RNA-Seq数据分析的新工具[新品推荐]
【字体: 大 中 小 】 时间:2015年03月17日 来源:生物通
编辑推荐:
新年伊始,RNA-Seq的数据分析方法就如雨后春笋般涌现。在最近的一个月内,三篇介绍RNA-Seq数据分析新方法的文章发表在Nature集团旗下的刊物上,其中一篇发表在《Nature Methods》上,另外两篇都发表在《Nature Biotechnology》上。
新年伊始,RNA-Seq的数据分析方法就如雨后春笋般涌现。在最近的一个月内,三篇介绍RNA-Seq数据分析新方法的文章发表在Nature集团旗下的刊物上,其中一篇发表在《Nature Methods》上,另外两篇都发表在《Nature Biotechnology》上。
有趣的是,这三篇文章都有一位共同的作者,那就是约翰霍普金斯大学计算生物学中心的Steven Salzberg。Salzberg是生物信息学和计算生物学领域的杰出科学家,在基因组组装上经验丰富,曾参与人类基因组计划。自新一代测序出现以来,他和他的团队开发了一系列应用程序,其中Bowtie和TopHat程序被广泛下载和引用。
这三篇文章分别介绍了三种新工具:HISAT、StringTie和Ballgown。它们分别取代了Salzberg之前开发的早期工具,为RNA-Seq的原始读取到差异表达分析提供了一种全新的方式。
HISAT全称为Hierarchical Indexing for Spliced Alignment of Transcripts,由约翰霍普金斯大学开发。它取代Bowtie/TopHat程序,能够将RNA-Seq的读取与基因组进行快速比对。这项成果发表在3月9日的《Nature Methods》上。
HISAT利用大量FM索引,以覆盖整个基因组。以人类基因组为例,它需要48,000个索引,每个索引代表~64,000 bp的基因组区域。这些小的索引结合几种比对策略,实现了RNA-Seq读取的高效比对,特别是那些跨越多个外显子的读取。尽管它利用大量索引,但HISAT只需要4.3 GB的内存。这种应用程序支持任何规模的基因组,包括那些超过40亿个碱基的。
HISAT软件可从以下地址获取:http://ccb.jhu.edu/software/hisat/index.shtml。
StringTie则由约翰霍普金斯大学联合德州大学西南医学中心开发,能够组装转录本并预计表达水平。它应用网络流算法和可选的de novo组装,将复杂的数据集组装成转录本。与Cufflinks等程序相比,在分析模拟和真实的数据集时,StringTie实现了更完整、更准确的基因重建,并更好地预测了表达水平。
例如,对于从人类血液中获得的9000万个读取,StringTie正确组装了10,990个转录本,而第二名的组装程序Cufflinks只组装了7,187个,提高了53%。对于模拟的数据集,StringTie正确组装了7,559个转录本,比Cufflinks的6,310个提高了20%。此外,它的运行速度也比其他组装软件更快。StringTie软件可从以下地址获取:http://ccb.jhu.edu/software/stringtie/。
Ballgown于3月初发表在《Nature Biotechnology》上,是开展差异表达分析的工具。它能利用RNA-Seq实验的数据,预测基因、转录本或外显子的差异表达。Ballgown软件的详细说明如下:https://github.com/alyssafrazee/ballgown。(生物通 薄荷)
原文检索:
HISAT: a fast spliced aligner with low memory requirements
StringTie enables improved reconstruction of a transcriptome from RNA-seq reads
Ballgown bridges the gap between transcriptome assembly and expression analysis