-
生物通官微
陪你抓住生命科技
跳动的脉搏
利用RNA-seq研究非模式生物
——动物界的转录组学
【字体: 大 中 小 】 时间:2013年11月11日 来源:生物通
编辑推荐:
通过建立一个转录组——包含生物体在所有组织和主要生活期所产生的所有RNA分子,动物学家们能经济、有效地分析基因组没有被测序的生物中的基因活性。在RNA准备过程中,RNA被打碎成小片段,每个被测定片段就像一片拼图,组成了完整图像的转录组。
生物通报道:如果说DNA是建筑师的设计图,那么RNA就是决定在一个细胞中真正要建造什么的承包商。通过在RNA水平进行基因表达分析,能够揭示为什么遗传学上相似的两个物种,例如黑猩猩和人类存在如此大的差别。在一个个体中,基因表达决定了一个小拇指是在哪里形成的,与大拇指相对应。很多年来,在已经完成基因组测序的模式生物中,生物学家们已经能够评估其RNA水平,而那些不关注模式生物的研究者们还被蒙在鼓里。
研究非模式生物的生物学家们不是去追问“它们基因组中哪个基因在一个特定的时间或者在响应特定的环境变化时表达?”,而是被迫去寻找已经在模式动物中被鉴定的基因。例如,一位蜈蚣研究者只能确定无疑地回答“是否多腿动物在其触角生长时激活与果蝇(D. melanogaster)相同的基因?”。
随着高通量的新一代RNA测序(也称为RNA-seq)技术的出现,这个障碍已经被克服。通过建立一个转录组(Transcriptome)——其包含生物体在所有组织和主要生活期所产生的所有RNA分子,这项技术允许动物学家们经济、有效地分析基因组没有被测序的生物中的基因活性。在RNA准备过程中,RNA被打碎成小片段,每个被测定片段就像一片拼图,组成了完整图像的转录组。
使得转录组学对于研究非模式生物的研究者们产生如此大的吸引力的是,它们的构建成本比基因组更低。更重要的是,当工作被正确完成时,产生的结果可能会比测定一个基因组更加可靠,因为一些动物具有庞大的基因组,那是几乎不可能被精确组装的。
在过去,研究者们局限于研究“大约一千万中个物种中的20个”,美国布朗大学的进化生物学家Casey Dunn说,“现在我们能够在某种程度上了解以前不能了解的各种各样生物的特性。”但是,像任何新的强大工具一样,转录组学也带来了误用和曲解。“对于一个动物学家来说,这真的是一个令人兴奋的阶段,”,Dunn说,“但是,它仍然像扩荒之前的美国西部一样有待我们探索。”科学家与专家就如何构建信息最丰富的转录组展开讨论,寻找如何使实验更有意义的技巧。
开始构建
以新鲜为目标
当开始做RNA实验时,新鲜组织是最好的。如果样本必须被保存,将其快速冻结在液氮中,或者迅速放置于含RNA提取缓冲液(例如Invitrogen的RNA纯化试剂盒)的EP管中。或者,一些研究者将组织保存在稳定剂RNAlater(包括Qiagen和Invitrogen的很多供应商都有销售)中,保存在—80℃。但是没有哪种试剂盒能够弥补RNA的大量损失,因为RNA比DNA更加容易降解。
“我曾经在许多研究中看到,人们说他们在室温条件下将组织寄送给合作者,这意味着很有可能他们的工作是以一种透光不均匀样本为基础,”Dunn说。“如果你正遇见转录组构建的所有麻烦,从好的样本材料开始是非常值得的。”
早期设置对照
RNA纯化的商品化试剂盒为如何将一份RNA样本转换成能够被测序的cDNA提供了一步一步的用法说明。在这个最初的阶段,增加一个对照样本是不可缺少的。利用贯穿实验过程中的这个对照,以便于测序结束后检查污染性序列。
质量的检测
瑞典斯德哥尔摩大学的进化生物学家Christopher Wheat在 RNA纯化后,采用生物分析仪(来自美国加利福尼亚州圣克拉拉的安捷伦科技公司的2100 Bioanalyzer)检测了每个样本的质量。他寻找超过500~2000个碱基范围的片段大小的正态分布,这能表明RNA没有降解成低质量的小片段。“你不想看到的是100bp周围的一个峰值,因为这表示降解RNA的一个积累,”他说。
整合在一起
得到更多的序列
为了产生一个转录组,研究者将成千上万的RNA序列组装成重叠的连续片段——称为contigs,以正确的方向排列。第一步是收集提取RNA的序列。RNA-seq两种常见的下一代测序平台是Illumina和Roche 454。当前,很多生物学家倾向于使用Illumina进行转录组组装,因为每一美元它能产生更多的序列,像组装一个包含不同版本各种图书的、藏书丰富的图书馆一样,你想要在转录组中得到尽可能多的RNAs。然而,很多片段来自高度表达的所谓管家基因,这些基因指导新陈代谢和其它基础生命持续过程,所以为了捕获在更低水平表达的序列,你需要很多的读长(reads)。“你得到的读长中,有一半会碰上50个管家基因,”Wheat解释说。因此,如果你收集到一百万个序列,你会更加可能重新获得在其它500000个基因中不明显的基因。
决定什么时候停止
当哈佛大学的进化发育遗传学家Cassandra Extavour构建一种海边很常见的甲壳动物——片脚类动物明钩虾(Parhyale hawaiensis)的转录组时,她尽可能积累了足够多的序列。什么时候才是足够?Extavour通过寻找一个饱和点,回答了这个问题。在她分析了一百万个读长后,如果单一序列继续大量出现,她将测定其它一百万个。“理想的是你想要尽可能得到所有来自每个阶段和每个组织中的RNA,”她说,“记住,这就是你的代理基因组。”
估计软件大小
大多数研究者一致认为,你不应依赖于基因组-组装软件来构建转录组,但是除了这个规则之外,没有任何其它一种方式,而且软件也经常发生变化。就在现在,很多研究者使用一个由美国布罗德研究所和耶路撒冷希伯来大学开发的、叫做Trinity的免费程序。Trinity利用一个三步过程组装转录组,包括构造来自片段的全长转录本,根据相似性分组这些转录本,然后将它们分成结构上相似但不相同的平行同源基因。对于需要被组装的每一百万的读长来说,Trinity需要大约1G的内存。另外一个常用的(免费的)组装软件是Velvet/Oases。Velvet是一个基因组组装程序,但是当它与Oases相结合时,程序就能够处理RNA-seq数据,过滤掉降解片段,重建属于基因的转录本。
简化流程
在利用Trinity这样的软件组装你的转录组之前和之后,对你的数据进行加工,能够提高效率。例如,Agalma是由Dunn实验室开发的一个免费的流水线程序,其获取准备组装的数据,通过不同的分析步骤队对数据进行自动分析。在这个程序利用Trinity组装转录组之前,其通过剔除低质量的序列对数据进行清理,也将易于大量表达的核糖体RNA剔除掉。在噪音片段剔除后,Trinity运行的更快,也只需要很少的电脑内存。一旦转录组被构建,研究者想要利用新数据构建一个进化树,Agalma也能够进行这些处理。
确保你获得高质量的序列
Wheat建议研究者,在转录组被构建后,采用BLAST评估其质量。你输入的contig序列的长度应该近似等于相应的基因序列或者来自近缘种的contig。抽查其它不同的contigs。
从你的转录组中获得最大信息
一旦转录组被组装完成,短的RNA读长能够被定位在上面,这些短RNA读长来自从蜈蚣建立它们触角的RNA到跳跃蛙类中发现的基因的实验。这里,各种各样开放获取的RNA-seq组装软件能够帮助完成任务。常用的选择包括Bowtie和Cufflinks,这两种都可以免费下载。大多数RNA-seq组装软件也能估算转录本的相对丰度,这对于比较基因表达水平的实验非常有用。
非常规程序的出现
许多现有的程序,例如Bowtie,由想要将RNA-seq数据中收集到的短RNA片段匹配到一个基因组而非转录组的研究者们开发,这也产生了一些问题。Extavour说,当她在其片脚类甲壳动物的研究中使用这些程序时,发现其三分之一的RNA-seq数据与她以前得到的片脚类动物转录组没有匹配。她没有舍弃这些数据,而是请她实验室的生物信息学技术人员开发出一个新的组装软件。利用这个软件,团队发现了90%的RNA-seq读长。“相比较现成的程序,我们自己开发的程序更好的完成了任务,”Extavour说。(她的技术人员,Victor Zeng,已经开始创建了自己的公司,为处理大片段数据的生物学家提供生物信息学分析。)
做同类型的比较
一个可怕的错误是,比较两个物种之间的基因表达水平,或者两个不同基因的表达水平。这样的一个实验的问题是,一些基因和一些生物体更容易被测序,什么看起来像一个明显的生物学差异是这项技术的一个真正的神器。“可能在一些年之后,我们将理解测序偏差,”Dunn说,“但是现在我们不能。”记住:相同的基因,相同的物种。
面对现实
避免在非常低水平表达的基因之间的比较。即使你设法捕获你的转录组中的稀有基因,它们的稀缺性将很难定量评估。
首先设置标准
当研究一个基因的表达水平时,Extavour建议研究者——如果可能的话——利用已发表的研究来决定,一个差异在实验开始之前有多少的意义。而大多数模式生物在经过多年分析后,已经有基准标准,这项基准可能不会应用到未被研究的生物中,所以你必须找到你自己的。“考虑到你会预先对什么满意,”她说。“一个5倍的差异是否足够?为什么?”。例如,如果以前的调查研究发现,阻塞树蛙皮肤斑点的一个基因的表达并不会改变斑点模式,直到仅有20%的表达蛋白保留,在基因表达中的2倍差异,将会太低以至于不具有信息性,但是一个10倍的差异能够做到。
复制,复制,还是复制
不要仅仅一次将一个样本与另外一个进行比较,要重复进行。例如,在2011年,Dunn和他的合作者评估了在一种与水母近缘的独特海洋动物——管水母目动物不同组织中的基因表达差异。特别的是,为了重复三次实验,他们采集了专门喂养的管水母动物的部分样本,和从三个不同管水母中采集了帮助它们游泳的部分样本(PLOS ONE 6: e22953, 2011)。“想象这些实验就像选举投票一样:仅仅调查小团体的人群,可能无法揭示整个群体是如何感受的,所以你需要投票给若干个小团体,”Dunn解释道。(生物通:王英)