《BMC Bioinformatics》:DMoVGPE: predicting gut microbial associated metabolites profiles with deep mixture of variational Gaussian Process experts
编辑推荐:
为解决当前肠道微生物代谢物预测模型存在的预测准确性、泛化性和可解释性问题,江南大学等机构的研究人员开展了基于深度变分高斯过程专家混合模型(DMoVGPE)预测肠道微生物相关代谢物谱的研究,结果表明该模型性能优异,为疾病研究和个性化医疗提供助力。
肠道微生物在人体健康中扮演着极为重要的角色,它们通过产生、代谢和修饰小分子,与人体宿主紧密互动,参与从免疫调节到代谢平衡、神经通讯等众多生理过程。例如,微生物衍生的三甲胺 - N - 氧化物(TMAO)与心血管代谢疾病相关,短链脂肪酸(SCFAs)则影响免疫调节和代谢。然而,深入了解微生物代谢物并非易事。
目前,代谢组学虽有发展,但面临诸多困境。靶向代谢组学能精确量化已知代谢物,却难以发现未知代谢物;非靶向代谢组学虽覆盖范围广,却资源消耗大。此外,微生物群落及其代谢产物的复杂性也为研究带来了巨大挑战。为了突破这些难题,利用高通量测序技术获得的微生物组成数据,结合机器学习(ML)方法预测代谢物特征成为研究热点。不过,现有的计算模型存在诸多问题,如线性回归模型难以捕捉复杂的非线性关系,神经网络模型存在可解释性差、泛化性不一致等问题。在这样的背景下,江南大学等机构的研究人员开展了一项关于肠道微生物相关代谢物谱预测的研究,其成果发表在《BMC Bioinformatics》上。
研究人员提出了深度变分高斯过程专家混合模型(DMoVGPE)。该模型主要基于两个关键技术:变分高斯过程回归(VGPR)和混合专家(MoE)框架。
变分高斯过程回归(VGPR)是许多统计和机器学习模型的基础,它为未知函数建模提供了概率框架,能在预测中量化不确定性 。在回归任务里,它常被用作未知函数的先验。一个高斯过程(GP)假设潜在函数服从先验分布,通过评估函数与观测样本的相关性,确定最符合数据特征的函数,进而实现更准确的预测。其关键组件包括均值函数和协方差函数(内核),研究采用平方指数(SE)内核,同时引入自动相关性确定(ARD)机制,为每个输入维度设置不同的长度尺度参数,实现自动特征选择,提升模型的可解释性和性能。
混合专家(MoE)框架则是将数据划分,由多个高斯过程专家分别对特定子集数据进行建模。在此基础上,研究使用深度神经网络(DNN)作为门控网络,动态选择专家模型权重,提高计算效率和模型灵活性。并且,根据微生物数据集的疾病标签划分样本,让每个 GP 专家针对特定健康表型进行训练,使模型能更精准地进行条件特异性预测。
研究人员使用了 14 个公开的人类肠道微生物代谢物数据集,这些数据集来自不同队列,涵盖多种健康状况、饮食习惯和地理背景的个体。在实验中,对数据进行了预处理,包括去除大量零丰度的特征、零值替换和中心对数比(clr)转换 。
在预测性能比较方面,研究人员将 DMoVGPE 与 MelonnPan、SparseNED、MiMeNet、mNODE 和 VGPR 等模型进行对比,使用 Spearman 等级相关系数(SCC)评估模型预测的准确性。结果显示,DMoVGPE 在所有数据集上表现优异,平均预测得分达 0.676,在 14 个数据集中排名第一。不过在 GC 数据集上,由于样本量小且数据维度高,DMoVGPE 表现不如 VGPR。
在专家分配策略的比较实验中,研究设置了随机数据拆分和增加专家数量(双倍专家)两种策略与基于疾病标签拆分的 DMoVGPE 方法对比。结果表明,基于疾病标签拆分的 DMoVGPE 在大多数数据集上表现更优,预测稳定性更高。
研究还利用 ARD 机制分析模型的可解释性。以 ADENOMAS 数据集为例,通过 ARD 确定的关键微生物特征与文献中关于腺瘤发展的研究结果相符,揭示了微生物与代谢物之间的关联以及相关代谢途径,如胆汁酸代谢、脂质代谢和磷脂代谢等。
这项研究提出的 DMoVGPE 模型在肠道微生物相关代谢物谱预测方面展现出卓越性能,为深入理解肠道微生物与宿主代谢之间的复杂关系提供了有力工具。它不仅有助于发现潜在的疾病生物标志物,还为个性化医疗和疾病治疗策略的制定提供了重要依据。不过,该模型仍存在一些可优化的地方,如统一的内核函数可能无法适应不同表型的独特特征,在处理更大规模数据和更多健康状况时的效率还有提升空间。未来研究可从开发自适应内核函数、引入注意力机制等方向入手,进一步完善模型,推动肠道微生物研究领域的发展,为人类健康事业做出更大贡献。
打赏
下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究
10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!
欢迎下载Twist《不断变化的CRISPR筛选格局》电子书
单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析
下载《细胞内蛋白质互作分析方法电子书》