基于母体-子体关系分析的LC-MS/MS代谢组学自动代谢物分子式排名新方法

《Metabolomics》:Automated metabolite formula ranking using formula subset analysis for LC-MS/MS-based metabolomics

【字体: 时间:2025年12月03日 来源:Metabolomics 3.3

编辑推荐:

  本研究针对非靶向LC-MS代谢组学中代谢物鉴定的瓶颈问题,开发了一种名为公式子集分析(FSA)的新方法。该方法通过分析MS/MS谱图中碎片离子与母离子之间的化学式子集关系,实现了对前体离子化学式候选者的高效预筛选和排名。在包含30,690个MS/MS谱图的大规模数据集测试中,FSA仅需0.024秒即可处理一个谱图,正确化学式在排名前1和前5的准确率分别达到85.28%和97.35%。该方法不依赖训练数据或MS/MS数据库,适用于广泛质量范围,为代谢物鉴定提供了快速可靠的解决方案。

  
在当今系统生物学研究中,代谢组学作为揭示生物体生理状态的关键技术,能够提供生物系统与环境相互作用的即时快照。然而,基于液相色谱-串联质谱(LC-MS/MS)的代谢组学研究面临着一个长期挑战:代谢物鉴定仍然是制约研究进展的主要瓶颈。特别是在目标代谢物的MS/MS谱图不在数据库中的情况下,研究人员往往陷入鉴定困境。
传统代谢物鉴定方法主要依赖两种途径:一种是基于谱图预测的方法,通过预测化合物的可能裂解模式并与实验谱图匹配;另一种是基于化学特征匹配的方法,从MS谱图中提取化学物理特征并与已知化合物数据库进行匹配。然而,这两种方法都存在明显局限性:前者预测谱图与实际谱图存在较大差异(如CFM-ID 4.0与METLIN谱图的平均相似度仅为0.38),后者则需要大量计算资源和数据库查询,处理时间长达数小时甚至数天。
更令人困扰的是,现有工具普遍存在七大问题:鉴定/排名准确性不足、计算时间长、对未知化合物适用性有限、对大分子代谢物处理困难、批量计算能力不足、结果可重复性差以及网络访问依赖性。这些问题严重制约了代谢组学研究的效率和可靠性。
为解决这些挑战,辅仁大学数学系的Ke-Shiuan Lynn开发了一种创新性的公式子集分析(FSA)方法。该研究发表在《Metabolomics》期刊上,提出了一种全新的代谢物分子式排名策略,不依赖于MS/MS谱图数据库,而是通过分析碎片离子与母离子之间的化学组成关系来实现快速准确的分子式鉴定。
研究人员采用了八个大型数据集进行方法验证,总计包含30,690个MS/MS谱图,涉及6,792个由C、H、O、N、S和P组成的代谢物。这些数据集来源多样,包括人类代谢组数据库(HMDB)、全球天然产物社会分子网络(GNPS)和CASMI 2016竞赛数据,涵盖了不同物种、仪器类型和分子量范围(0-1500 Da)的代谢物。
研究采用的主要技术方法包括:首先对MS/MS谱图进行预处理,包括去噪、峰检测、去同位素和单同位素质量恢复;然后在一定质量容差内搜索每个峰的可能化学式;接着通过母体-子体关系(MDR)分析,确定特征碎片(CFs)——即与母离子和其他碎片仅存在单一MDR关系的碎片;最后根据MDR数量对前体离子化学式候选者进行评分和排名。
谱图预处理与质量匹配
研究首先对原始MS/MS谱图进行标准化预处理,包括将质子化/去质子化峰转换为单同位素形式,移除质量大于前体离子的峰,并保留高度归一化后大于0.5的峰。根据不同仪器类型(QTOF、OT、ITFT、QFT)设定特定的质量匹配容差(0.5-2.9 mDa),从PubChem数据库搜索每个峰的可能化学式。
母体-子体关系与特征碎片识别
FSA方法的核心是识别母体-子体关系(MDR),即一对离子中一个离子的化学组成是另一个离子化学组成的子集的关系。研究发现,通过限制最大组合数(MaxComb)为1,并仅使用特征碎片(CFs)——即与高质量峰仅存在单一MDR关系的碎片,可以显著提高排名准确性。这种方法有效消除了因碎片有多个可能化学式而导致的模糊MDRs。
评分系统与公式排名
研究人员设计了一套评分系统,其中得分基于CFs间独特MDR数量与所有可能双组合数的比值。当得分相同时,使用碎片质量与匹配公式质量的平均绝对差作为辅助排名标准。这种方法确保了排名既考虑MDR数量,又兼顾质量匹配精度。
研究结果显示,FSA在测试数据集上表现出色。总体而言,正确化学式在排名第一的准确率达到85.28%(代谢物)和74.01%(谱图),在排名前五的准确率高达97.35%(代谢物)和98.61%(谱图)。这一性能在不同数据集间保持一致,证明了方法的鲁棒性。
不同仪器类型的性能差异分析显示,FSA在高精度仪器如QFT和ITFT上表现最佳(排名第一准确率98.76%-100%),而在部分QTOF数据集上性能相对较低(68.39%-69.49%)。这种差异主要归因于QTOF谱图中特征碎片比例较低,可能与高能碰撞产生的不稳定碎片和错误峰有关。
与主流工具的性能对比研究表明,FSA在计算速度上具有显著优势,平均处理每个谱图仅需0.024秒,比SIRIUS和BUDDY快约150倍。虽然Buddy在排名第一准确率(97.63%)上略优于FSA,但FSA能够快速筛选出包含正确公式的前五候选列表(98.61%概率),非常适合作为其他鉴定工具的预筛选步骤。
影响因素分析揭示了几个关键发现:使用前30个丰度最高的峰可以优化性能;谱图中碎片数量越多、峰间距离的标准差越小、特征碎片比例越高、前两名得分差异越大,FSA的排名准确性就越高。这些发现为优化实验条件提供了重要指导。
方法扩展性测试表明,FSA可以轻松扩展到包含卤素元素(F、Cl、Br、I)的化合物分析,虽然性能略有下降(排名第一准确率从85.28%降至77.84%),但仍保持实用价值。然而,对加合物(如[M+Na]+、[M+K]+、[M+Cl]-)的处理效果较差,仅8.21%-9.23%的谱图能正确排名第一,表明需要引入化学规则来解决加合物带来的模糊性。
研究还发现,FSA对不同分子量范围的代谢物都表现稳定,在整个质量范围(0-1500 Da)内保持较高准确性,证明其适用于各种大小的代谢物分析。
研究的讨论部分指出,尽管尝试了多种改进策略(如考虑裂解路径长度、为无匹配碎片生成化学式、多种评分策略组合),但性能提升有限且不一致。这表明单纯依靠MDR分析可能已接近其性能上限,未来需要整合化学规则和物种特异性信息来进一步提升准确性。
该研究的重大意义在于提出了一种全新的代谢物鉴定思路,突破了传统方法对数据库和训练数据的依赖。FSA的优势在于其简单性、快速性和可扩展性,为代谢组学研究提供了高效可靠的分子式排名工具。特别是在大规模非靶向代谢组学研究中,FSA可以显著降低后续鉴定工作的成本和时间,推动代谢物鉴定从经验性向系统性、高效性转变。
未来研究方向包括整合化学规则处理加合物、纳入更多化学公式数据库(如ChemSpider、ChEBI)、扩展至更复杂分子体系,以及优化算法处理低质量谱图。这些发展将进一步加强FSA在代谢组学中的应用价值,为系统生物学研究提供更强大的技术支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号