
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于双线性注意力网络与稀疏自编码器的微生物-疾病关联预测模型BANSMDA研究
【字体: 大 中 小 】 时间:2025年08月11日 来源:Frontiers in Genetics 2.8
编辑推荐:
本文推荐一种创新性计算模型BANSMDA(Bilinear Attention Networks and Sparse Autoencoders),通过整合双线性注意力网络(BAN)与稀疏自编码器(SAE),构建微生物-疾病异质网络预测潜在关联。模型融合高斯核相似性(GIP)与功能相似性特征,在HMDAD和Disbiome数据库验证中,5折交叉验证AUC达0.98,对哮喘(Asthma)和结直肠癌(Colorectal carcinoma)等疾病的Top20预测微生物验证率达95%,为疾病诊断和微生物调控提供新工具。
Introduction
人类共生微生物群通过能量代谢、有机化合物吸收等机制深刻影响宿主健康。研究表明,肠道菌群基因组异常可导致人类基因组改变(Sampson et al., 2016),其多样性变化与心血管疾病、神经退行性疾病密切相关(Toya et al., 2020)。传统湿实验方法耗时且具有随机性,而基于HMDAD(Ma et al., 2017)和Disbiome(Janssens et al., 2018)等数据库的计算模型成为研究新范式。
Materials and methods
数据来源
从HMDAD提取39种疾病与292种微生物的450组关联对,Disbiome包含240种疾病与1,098种微生物的5,573组关联。
微生物-疾病关联矩阵
构建二元矩阵E∈Rnd×nm,其中Eij=1表示疾病di与微生物mj存在已知关联。
高斯核相似性计算
疾病相似性DGIP=exp(-γd∥E(di)-E(dj)∥2),其中γd=1/((1/nd)∑∥E(di)∥2)。微生物相似性MGIP通过相同方法计算。
功能相似性分析
基于HumanNet v2.0基因互作数据库,疾病功能相似性DFUN通过公式(9)计算,微生物功能相似性MFUN源自STRING v11蛋白互作网络(Szklarczyk et al., 2019)。
异质网络构建
整合E、DGIP和MGIP形成矩阵B=[DGIP E; ET MGIP]。
BAN模型架构
采用双线性变换x=aTHa+b,通过ReLU激活函数y=ReLU(H1x+b1)提取低维特征矩阵C=[Cd; Cm]。
SAE稀疏编码
改进随机游走(RWR)获得DRWR和MRWR矩阵,输入SAE后通过L1稀疏约束(λ∑|hj|)生成DS和MS。
特征矩阵融合
疾病特征矩阵D=[Cd; DS; DRWR; E; DFUN],微生物特征矩阵M=[Cm; MS; ET; MRWR; ET; DFUN]。
Experiments and results
参数优化
通过网格搜索确定最优参数:l1=0.01,φ=0.4,l2=0.005,ρ=0.005。
性能对比
在HMDAD数据集上,BANSMDA的AUC(0.98)比MOSFL-LNP提升5.31%,AUPR(0.64)提升3.37%。F1-Score显著优于LRLSHMDA、BIRWMP等方法。
案例验证
哮喘预测Top20微生物中19种获文献验证(如Helicobacter pylori),结直肠癌相关微生物全部验证(如Clostridium)。对Escherichia和Bacteroides的疾病预测准确率均达95%。
Discussion
模型在数据稀疏场景下存在过拟合风险,未来需结合生物知识图谱增强解释性。AUPR与AUC差异反映HMDAD数据阳性样本仅占0.5%-2%,需设计样本平衡策略。
Conclusion
BANSMDA通过多模态特征融合与稀疏约束,为微生物-疾病关联研究提供新范式,其预测结果已通过哮喘等典型病例验证,在精准医疗和生态健康领域具有应用潜力。
生物通微信公众号
知名企业招聘