MetaboLM:基于代谢组学语言模型的多疾病早期预测与风险分层新框架

《Nature Communications》:MetaboLM: a metabolomic language model for multi-disease early prediction and risk stratification

【字体: 时间:2025年12月04日 来源:Nature Communications 15.7

编辑推荐:

  本研究针对慢性疾病早期预测临床转化难题,开发了基于Transformer架构的代谢组学语言模型MetaboLM。通过对83,744名健康人群血浆NMR代谢组学数据预训练,该模型在16种慢性疾病预测中表现出色,其衍生的代谢风险评分(MetaboRS)可提前10年预测疾病风险,在13种疾病中超越ASCVD风险评分。研究通过注意力机制解析出乙酸、亮氨酸等关键代谢物,为多疾病早期预警提供了新范式。

  
在慢性疾病防控领域,早期识别高风险个体是实现有效干预的关键。然而,传统临床筛查方法存在明显局限:不仅需要消耗大量医疗资源,而且通常仅针对单一疾病设计风险分层方案,难以满足多病共防的公共卫生需求。随着常规血液检测在成人健康管理中的普及,如何利用血液生物标志物实现多疾病同步预测,成为转化医学的重要挑战。
血浆代谢物作为细胞过程的终产物,整合了遗传、转录组、蛋白质组和环境调控的综合效应,其水平变化直接反映生理病理状态,为捕捉疾病早期生物学改变提供了独特窗口。尽管已有研究将代谢组学特征与衰老、死亡率、痴呆等多种结局关联,但传统机器学习模型难以捕捉代谢网络中复杂的调控关系。更重要的是,迄今仍缺乏基于大规模健康人群代谢组学数据训练的基础模型,无法全面描绘血浆代谢组的整体景观。
在此背景下,哈尔滨工业大学邱世正等人在《Nature Communications》发表的研究,提出了代谢组学语言模型MetaboLM。该研究创新性地将自然语言处理中的Transformer架构应用于代谢组学数据分析,通过预训练-微调范式实现了多疾病早期预测与风险分层的突破。
关键技术方法主要包括:基于UK Biobank队列的274,236名参与者NMR代谢组学数据,使用83,744名健康人群样本进行模型预训练;采用Hadamard乘积嵌入和BERT编码器架构,引入代谢物-代谢物关联矩阵增强注意力机制;通过随机掩码预测任务使模型学习代谢物相互作用规律;利用16种慢性疾病诊断数据对预训练模型进行微调,生成代谢风险评分(MetaboRS)并进行临床验证。
研究结果
研究人群
研究纳入UK Biobank中274,236名参与者的血浆代谢组数据。预训练数据集包含83,744名相对健康个体的168种NMR代谢物生物标志物测量值,这些个体在基线和整个随访期间均未患常见慢性疾病。微调数据集包含随访期间确诊16种常见慢性疾病(涵盖神经、呼吸、肌肉骨骼、内分泌、心血管疾病和癌症)的个体代谢组学数据,以及9,390名健康对照。
预训练代谢组学语言模型
研究人员开发了MetaboLM模型,通过预测随机掩码的代谢物测量值,提升模型对代谢物相互作用和调控机制的理解。经过200轮预训练后,模型在验证集上达到0.0684的损失值、0.9533的重建准确率、0.9305的R2值,表明模型成功学习了健康人群代谢物表达模式。
疾病预测与风险分层
微调后的MetaboLM在16种慢性疾病预测中表现出色,其中13种疾病的AUC超过0.70。与多层感知器(MLP)、类别提升(CatBoost)和特征标记转换器(FT-Transformer)等基线模型相比,MetaboLM在多数疾病中表现更优。特别值得注意的是,MetaboLM对2型糖尿病(T2D)的3年预测风险AUC达到0.9221,显示其短期预测潜力。
基于MetaboRS的风险分层显示,高风险组(MetaboRS > 0.66)个体发生慢性疾病的风险比低风险组(MetaboRS < 0.33)至少高726倍。改进的Kaplan-Meier生存分析表明,高风险组在随访期间发生大多数慢性疾病的概率显著高于中低风险组。
MetaboRS的临床判别性能
研究人员设计了三个临床预测因子集进行比较:仅包含性别年龄的简单模型、基于美国心脏病学会(ACC)和美国心脏协会(AHA)的ASCVD风险方程、包含35个变量的综合面板(Panel)。结果显示,MetaboRS在16种疾病中的预测价值均优于Age+Sex模型,在13种疾病中优于ASCVD风险方程,在11种疾病中优于Panel模型。
在不同亚组(性别、年龄、种族)分析中,MetaboRS的预测价值保持稳健。校准曲线显示大多数疾病模型具有良好的校准度,风险估计既不过度高估也不低估。
个体代谢物及代谢物相互作用的贡献
通过注意力机制的可解释性分析,研究人员发现乙酸和亮氨酸在15种疾病预测中起关键作用,苯丙氨酸在13种疾病中至关重要。与健康人群相比,疾病人群的特定血浆代谢物水平受到更多关注:如痴呆模型中最重要的代谢物是支链氨基酸(BCAAs)中的亮氨酸,而高血压人群中最受关注的是脂肪酸不饱和程度。
研究人员还将模型学习到的代谢物-代谢物相互作用与文献报道的生化途径进行比较。以痴呆和T2D为例,痴呆模型强调的前5个代谢物相互作用均涉及已知生化途径,其中最显著的是酪氨酸和苯丙氨酸的相互作用,二者参与苯丙氨酸代谢途径;而T2D模型中最重要的代谢物相互作用涉及柠檬酸与乙酸、丙酮酸与乙酸等,参与糖酵解/糖异生和丙酮酸代谢途径。
消融研究表明,在预训练中纳入代谢物相关性矩阵可显著提升下游疾病预测任务的性能(t=3.14,P=0.00395),证实了引入先验生物知识对模型性能的积极影响。
研究结论与讨论表明,MetaboLM作为首个基于健康人群代谢组学数据预训练的基础模型,成功解决了传统模型处理高维复杂代谢组学数据的挑战。通过借鉴自然语言处理中的自监督学习框架,模型学会了健康代谢的"语言",获得了可解释为代谢物调控和相互作用模式的丰富上下文表征。MetaboRS在无需任何临床信息的情况下即可有效预测10年疾病风险,超越了两种传统风险评分,展示了代谢组学在精准预防医学中的巨大潜力。
该研究的创新之处在于将语言模型范式引入代谢组学分析,不仅提升了疾病预测性能,还通过注意力机制揭示了代谢物相互作用的生物学意义。然而,研究也存在一定局限性,如UK Biobank队列主要以欧洲裔人群为主,可能限制结果的普适性;NMR技术虽然成本效益高、重现性好,但可能遗漏其他分析方法可检测的代谢物。
总体而言,MetaboLM为早期疾病检测和风险分层提供了创新框架,其预训练-微调范式使得研究人员能够在相对小的数据集上针对各种下游任务进行模型优化,有望推动小样本代谢组学研究的标准化和新生物标志物的发现。随着代谢组学技术的不断进步和更大规模队列数据的积累,这类基础模型将在个性化健康管理和疾病预防中发挥越来越重要的作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号