
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:机器学习算法预测宿主-病原体相互作用的范围审查
【字体: 大 中 小 】 时间:2025年05月27日 来源:Infection, Genetics and Evolution 2.6
编辑推荐:
这篇综述系统评价了机器学习(ML)在宿主-病原体相互作用(HPI)预测中的应用进展,重点分析了树模型(RF/GB)和深度学习(CNN/RNN)的优劣,指出蛋白互作(PPI)预测中序列特征的主导地位,同时强调数据集标准化和模型可解释性仍是当前主要挑战。
背景
疾病由病原微生物引发并持续威胁全球健康,病原体通过复杂的分子机制劫持宿主系统。理解宿主-病原体相互作用(HPI),尤其是蛋白质-蛋白质相互作用(PPI),对开发治疗策略至关重要。实验方法虽必要但耗时昂贵,而人工智能(AI)和机器学习(ML)的进步为高效预测HPI提供了新工具。
方法
这篇范围审查系统分析了2019-2024年间46项研究,最终纳入30篇文献。研究按宿主类型(人类/动物/植物)和病原体类型(病毒/细菌/真菌)分类,机器学习算法分为经典算法(LR/KNN/NB)、树模型(DT/RF/GB/XGB)、向量机(SVM)和神经网络(ANN/CNN)。数据来自HPIDB、BioGRID等生物数据库,评估指标包括准确率(ACC)和马修斯相关系数(MCC)。
研究亮点
• 树模型表现突出:随机森林(RF)在人类-病毒互作预测中准确率达87%,梯度提升(GB)在植物-真菌互作中达85%
• 深度学习潜力与局限:CNN模型Deep-HPI-pred虽实现93%准确率,但依赖海量标注数据
• 特征工程趋势:82%研究采用序列特征,而结构特征仅占38%,其中SARS-CoV-2刺突蛋白与ACE2受体互作成为典型案例
关键发现
人类病原体互作预测准确率最高(平均91%),动物和植物相关研究仅占32%。值得注意的是:
挑战与展望
当前面临三大瓶颈:
未来应重点开发融合多组学数据的混合模型,同时建立标准化评估框架。正如新冠病毒(SARS-CoV-2)研究中发现的N501Y突变体增强RBD结合案例所示,动态更新训练数据对应对病原体进化至关重要。
应用价值
已部署的5个Web应用(如Deep-HPI-pred)和3个GitHub项目显示,这些预测工具正加速药物靶点发现。在肝炎C病毒研究中,SVM模型通过PCA降维后准确率达88%,显著缩短了候选药物筛选周期。
结论
机器学习已证明其在HPI预测中的变革性价值,但下一阶段需要生物学家与AI研究者的深度协作,特别是在构建跨物种通用模型和实时预测系统方面。随着单细胞测序和冷冻电镜技术的发展,整合结构生物学特征的下一代预测模型有望突破现有精度瓶颈。
生物通微信公众号
知名企业招聘