
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于扩散模型和系统发育信息的时序肠道微生物组数据插补方法研究
【字体: 大 中 小 】 时间:2025年07月30日 来源:Bioinformatics Advances 2.4
编辑推荐:
本研究针对时序肠道微生物组数据分析中的缺失值问题,提出了一种结合系统发育卷积网络和元数据整合的条件扩散模型(CSDI+phylum CNN)。该方法在16S rRNA和全基因组测序(WGS)数据中显著降低了平均绝对误差(MAE),尤其在50%以上高缺失率时表现优异,其插补数据在下游疾病预测任务中AUC值优于现有方法。研究为微生物组-宿主互作研究提供了可靠的数据修复工具。
肠道微生物组被称为人体的"第二基因组",其动态变化与宿主健康密切相关。然而在时序微生物组研究中,样本采集困难、测序成本高昂导致的数据缺失问题长期困扰着科研人员。传统插补方法如线性插值或均值填充会扭曲微生物群落结构,而基于LSTM或GAN的方法又面临训练不稳定的挑战。这些局限性严重制约了微生物组时序动态规律的解析,也影响了疾病预测等下游应用的准确性。
东京大学医学科学研究所人类基因组中心健康医疗智能部门的Misato Seki团队在《Bioinformatics Advances》发表研究,创新性地将条件评分扩散模型(CSDI)引入微生物组数据修复领域。该方法通过三个关键技术突破:1)在去噪函数中嵌入针对门级分类单元设计的系统发育卷积网络(phylum CNN),利用OTUs(操作分类单元)的进化关系约束插补过程;2)采用自监督训练策略,将完整数据随机分割为条件观察值x0co和插补目标x0ta;3)通过特征标记器(FT)将宿主元数据(如过敏状态)编码为8维向量,采用通道级联策略融入模型。研究使用DIABIMMUNE项目的16S rRNA数据(116名婴儿5个时间点113个OTUs)和BONUS研究的WGS数据(157名CF患儿7个时间点833个物种)进行验证。
扩散模型提升16S rRNA数据插补性能
在随机缺失(MCAR)和基于α多样性的非随机缺失(MNAR)场景下,该方法在0.1-0.9缺失率范围内MAE稳定在0.197-0.240,显著优于线性插值(0.268-0.442)和LOCF(最后观测值结转法)。UMAP可视化显示插补数据保留了原始样本的聚类特征,且成功捕捉到婴儿发育过程中α多样性上升、零值比例下降的生物学趋势。
下游预测任务验证应用价值
在模拟的过敏预测任务中,使用插补数据的双向RNN模型ROC-AUC达0.82-0.89,接近完整数据水平(0.85-0.91)。值得注意的是,对低丰度物种(如Eggerthella lenta)的准确插补为发现潜在生物标志物提供了新线索。
元数据整合带来边际增益
当加入国家、过敏史等元数据时,模型在>40%缺失率场景下MAE进一步降低0.005-0.015。PCoA分析显示元数据增强版模型的插补样本更接近真实分布,证实宿主因素对菌群重建的指导作用。
WGS数据插补展现普适性
该方法在更高维度的WGS数据中保持稳定表现,在0.9缺失率时MAE(0.195)仍低于传统方法(0.229-0.230),证实其对不同测序技术的适应性。
这项研究开创性地将扩散模型应用于微生物组数据修复,其核心价值在于:1)通过系统发育约束解决了微生物组数据高稀疏性(>70%零值)的挑战;2)提出的双阶段训练策略(自监督预训练+元数据微调)为小样本生物医学数据建模提供了新范式;3)开源的实现方案支持16S rRNA和WGS数据的端到端处理。未来通过整合更多宿主临床指标(如用药史、膳食记录),该方法有望发展为微生物组时序预测的通用框架,为精准医学研究提供有力工具。
生物通微信公众号
知名企业招聘