让代谢组学的数据分析不再抓狂

【字体: 时间:2014年07月14日 来源:生物通

编辑推荐:

  与其他的组学学科相似,代谢组学的数据收集是个问题,但肯定不是研究人员面对的最大问题。大多数人都同意,更大的问题是弄清楚代谢组学数据集到底意味着什么。幸运的是,不断出现的分析工具正在帮助打破这个瓶颈。

研究人员逐渐懂得,如果你真的想要了解细胞行为,你需要研究代谢物。基因编码蛋白质,而蛋白质作用于小分子。这些分子的存在和丰度,被统称为代谢组(metabolome),反映和影响了健康、营养、免疫系统等。

与其他的组学学科相似,代谢组学的数据收集是个问题,但肯定不是研究人员面对的最大问题。大多数人都同意,更大的问题是弄清楚代谢组学数据集到底意味着什么。“数据分析仍是个巨大的瓶颈,”赛默飞世尔代谢组学的市场部经理Yingying Huang说。

幸运的是,不断出现的分析工具正在帮助打破这个瓶颈。

光谱图库

代谢组学的数据分析主要分为两个部分:峰值检出(peak picking)和峰值鉴定(peak identification)。峰值检出是利用代表不同条件(如健康和患病)的多个数据库进行筛选的过程,并鉴定出它们之间不同的光谱特征。在这些峰被发现之后,它们所代表的化合物必须被鉴定。

多个软件包可处理第一个问题,包括商业化工具(如安捷伦的MassHunter Profinder,布鲁克的ProfileAnalysis,赛默飞世尔的SIEVE™和Waters的Progenesis QI)以及免费工具(MZmine和XCMS Online)。而一些图库正在开发或已被开发出,以解决第二个问题。

斯克里普斯研究所(Scripps Research Institute)代谢组学和质谱中心的主任Gary Siuzdak谈到,他的METLIN数据库目前列出了240,000种化合物,其中11,600种有MS/MS光谱数据。而人类代谢组数据库(HMDB)有近42,000种化合物,其中1,164种有MS和MS/MS数据。此外还有其他选择,包括ChemSpider和MassBank。

当然,我们不可能收集每个代谢产物的实验数据,加州大学戴维斯分校的Oliver Fiehn认为。目前有太多的代谢产物,而并非全部都有纯化形式作为标准品。“在某些时候,你必须预测MS/MS图谱会怎么样,”他说。

Fiehn解决这个问题的工具是LipidBlast,它包含200,000个预测的脂类光谱。“这很难[做到],”Fiehn承认,因为与肽段不同,代谢物有各种形状、形式和大小。有了LipidBlast,用户能够将它们未知的图谱与图库进行比较,看看是否有hit,就像DNA研究人员利用BLAST将基因序列与GenBank比较。赛默飞世尔也有个类似的工具,叫LipidSearch™。

阿尔伯塔大学(University of Alberta)的化学教授Liang Li最近推出了一个类似的项目,MyCompoundID.org,以扩展HMDB的用途。MyCompoundID的建立是从HMDB中抽取8,000种代谢物,并计算它们的质量以及经历76种可能的生物转化(如磷酸化、甲基化或D-核糖基化)后的预测光谱特征。这些结果将帮助研究人员缩小未知光谱特征的可能身份。

了解赛默飞世尔的代谢组学研究工具

SWATH采集

代谢组学研究可能是靶向,也可能是非靶向的。对于前者,研究人员设定他们的仪器(通常是三重四级杆质谱仪)来扫描特定的代谢物。而对于后者,仪器扫描特定质量范围内的一切,但只收集高丰度离子的MS/MS碎片数据。

这种所谓的数据依赖的流程是为方便起见而设计的。不过Fiehn认为,它不尽如人意,有时研究人员发现样品之间的特定离子变化明显,但没有被碎裂,因为它是低丰度的。

最近,苏黎世联邦理工学院的Ruedi Aebersold介绍了这个问题的解决方案1,它已被AB SCIEX商业化。这种被称为SWATH™ MS的策略避开了数据依赖处理,而支持数据非依赖的处理,即所有进入质谱仪的离子都被碎裂和分析。它逐步分析用户定义的分离窗口,重复,并通过计算整理出产生的碎片,从而覆盖很宽的质量范围。

2013年,华盛顿大学的化学家Gary Patti利用安捷伦的6520 Q-TOF质谱仪和定制的R package,在代谢物上应用了一种类似的方法2。据AB SCIEX的高级营销经理Fadi Abdi介绍,AB SCIEX如今正将SWATH技术应用在蛋白质组学上。

用户在TripleTOF®质谱仪上收集高速的光谱数据,并利用MS/MS光谱图库来解释它,这与蛋白质组学的方法相似。“在数据依赖的分析中,如果您没有触发您的分子,则无法识别它,”Abdi谈道。“SWATH允许您收集样品中所有可检测种类的数据,带来更为全面的定量覆盖。”

通路分析

在研究人员鉴定出有趣的代谢物后,他们需要找出它们在生物系统中的作用。这时就需要通路分析的工具。通路分析让研究人员能够将代谢物定位到已知的生化通路上,为可能的遗传角色及其他代谢物提供线索。

Fiehn的实验室写了一个通路分析的工具,名为MetaMapp,而大部分商业化的代谢组学数据分析包也包含通路分析。赛默飞世尔的SIEVE数据分析包中就有这样的模块,它关联到KEGG通路数据库,而Bruker Daltonics也即将推出它的Compass PathwayScreener工具。

不过,Metabolon(北卡罗来纳州的一家代谢组学服务供应商)的首席科学家Mike Milburn认为,仅仅将代谢物定位到已知的通路商,还不足以看清整幅图像。Metabolon已经完成了约3000项代谢组学研究,每年开展600-700项,半数是科研客户。这些经验使得他们能够看到其他研究人员难以获得的代谢鸟瞰图。

对许多研究人员而言,开始代谢组学流程所需的技能、专长和费用使得外包给Metabolon这样的公司更为常见。但是那些愿意自己承担重任的研究人员也会发现,他们并不缺少计算上的工具。

无论采用哪种方式,Bruker Daltonics代谢组学的市场部经理Aiko Barsch说,“我会鼓励新客户进入代谢组学,因为那儿包含了那么多的信息。有那么多新东西有待发现。”

(作者:Jeffrey M. Perkel/生物通编译)

参考文献

[1] Gillet, LC, et al., “Targeted data extraction of the MS/MS spectra generated by data independent acquisition: A new concept for consistent and accurate proteome analysis,” Mol Cell Proteomics, 11:O111.016717, 2012. [PubMed ID: 22261725]

[2] Nikolskiy, I, et al., “An untargeted metabolomics workflow to improve structural characterization of metabolites,” Anal Chem, 85:7713-9, 2013. [PubMed ID: 23829391]

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号