PBIP:基于深度学习的菌株水平噬菌体-细菌相互作用预测框架及其在噬菌体治疗中的意义

《Briefings in Bioinformatics》:PBIP: a deep learning framework for predicting phage–bacterium interactions at the strain level

【字体: 时间:2025年12月12日 来源:Briefings in Bioinformatics 7.7

编辑推荐:

  本研究针对噬菌体治疗中菌株水平相互作用预测精度不足的问题,开发了新型深度学习框架PBIP。该模型通过预训练统一表示(UniRep)模型提取蛋白质序列深度嵌入特征,结合卷积神经网络(CNN)、双向门控循环单元(Bi-GRU)和注意力机制,并采用合成少数类过采样技术(SMOTE)解决数据不平衡问题。实验结果表明,PBIP在菌株水平和物种水平数据集上均优于现有方法,为精准噬菌体治疗提供了可靠的计算工具。

  
在抗生素耐药性日益严重的全球健康危机下,噬菌体治疗作为替代疗法展现出巨大潜力。然而,其核心挑战在于精准预测噬菌体与细菌间的相互作用(Phage-Bacterium Interactions, PBI),特别是针对特定菌株的感染特性。传统实验方法耗时费力,而现有计算预测方法多局限于物种级别分类,且依赖手工特征提取,难以捕捉序列中复杂的生物学模式。更关键的是,由于大多数噬菌体仅感染细菌物种内的特定菌株,物种级预测往往无法准确识别具体感染关系,严重制约了噬菌体治疗的临床应用。
为突破这些局限,深圳大学等单位的研究团队在《Briefings in Bioinformatics》发表了题为"PBIP: a deep learning framework for predicting phage-bacterium interactions at the strain level"的研究论文。该研究创新性地开发了PBIP深度学习框架,通过整合深度蛋白质嵌入表示与多模块神经网络架构,实现了菌株水平PBI的高精度预测。
研究团队首先通过湘雅医院临床环境分离的肺炎克雷伯菌(Klebsiella pneumoniae)进行高通量感染实验,构建了包含120个细菌菌株和104个噬菌体的菌株水平相互作用数据集。随后采用四阶段技术路线:利用预训练UniRep模型将蛋白质序列转化为1900维深度嵌入;应用SMOTE技术在嵌入空间生成合成阳性样本以平衡数据;设计包含CNN局部特征提取、Bi-GRU长程依赖捕获和注意力关键特征强调的深度学习架构;最终通过全连接层整合信息进行相互作用预测。
数据集构建与特征分析
研究团队通过双层琼脂实验验证感染性,利用自动化噬斑识别算法计算半径、面积和透射率等特征,筛选出938个阳性相互作用(占总记录的7.22%)。基因组测序和注释后,通过Dashing工具评估训练集与测试集噬菌体相似度,平均相似度仅为0.60,确保了数据集分割的合理性。物种水平数据集则采用PredPHI基准数据集,按提交时间划分训练集(2016年及以后)和测试集(2016年前),包含3449个噬菌体和301个细菌物种。
蛋白质序列嵌入表示
PBIP采用UniRep模型将蛋白质序列转化为保留物理化学和结构特性的深度嵌入。首先对序列进行独热编码,通过嵌入层转换为连续表示,再经多层长短期记忆网络(mLSTM)处理生成上下文感知的状态向量,最后对单个生物体的多个蛋白质嵌入进行平均得到生物体级表示。这种方法避免了手工特征提取的局限性,能有效捕捉受体结合蛋白(RBPs)中的相互作用信号。
数据增强策略
针对菌株水平数据集中阳性样本稀缺的问题(阳性率仅7.22%),研究在嵌入空间应用SMOTE技术,通过线性插值生成合成阳性样本。具体而言,对原始阳性样本[xp, xb]及其最近邻样本,使用随机系数α∈[0,1]进行插值:[xp, xb]′ = [xp, xb] + α·([xp, xb]n- [xp, xb])。这一策略使训练集正负样本数量达到平衡,而测试集仍保持原始实验验证数据。
深度学习模型架构
PBIP的核心创新在于多模块神经网络设计。CNN模块包含4个一维卷积层(滤波器数量分别为32、64、128、256),通过ReLU激活函数和最大池化提取局部特征模式,可能捕获尾蛋白中的受体结合基序。Bi-GRU模块(隐藏层大小64)通过重置门、更新门和记忆内容机制,从正反两个方向捕捉蛋白质序列中的长程依赖关系。注意力模块则计算隐藏状态的加权和,使模型聚焦于与相互作用预测最相关的特征。最终,噬菌体和细菌的特征表示被拼接后输入具有Sigmoid激活函数的全连接层进行预测。
性能验证结果
在10折交叉验证中,PBIP在菌株水平数据集上达到准确率0.96±0.01、灵敏度0.90±0.02、F1-score 0.86±0.02、MCC 0.72±0.04和AUC 0.96±0.01;在物种水平数据集上相应指标为0.92±0.01、0.92±0.01、0.92±0.01、0.85±0.03和0.98±0.01,均显著优于对比方法。独立测试集评估进一步证实了PBIP的优越性,在菌株水平上准确率达0.80,显著高于PredPHI(0.76)和PHIAF(0.73)等现有方法。
案例研究深入分析
测试集不平衡影响研究表明,随着阳性-阴性样本比例从1:2恶化至1:10,所有方法的马修斯相关系数(MCC)均下降,但PBIP始终保持最高性能。训练-测试相似性分析显示,当噬菌体基因组相似度高于0.8时,PBIP预测准确率可达0.85以上,证实模型能有效利用序列相似性信息。消融实验验证了各组件贡献:去除UniRep嵌入(PBIP1、PBIP2)使准确率下降3-9个百分点;移除Bi-GRU(PBIP3)或注意力模块(PBIP4)导致性能降低7-9个百分点;而取消SMOTE数据增强(PBIP5)使准确率下降6个百分点,凸显了各模块的必要性。
结论与展望
PBIP框架通过深度蛋白质表示学习与多模块神经网络的有效集成,解决了菌株水平PBI预测的关键难题。实验证明其在不同分类水平、数据不平衡场景和序列相似性条件下均具有稳健性能。未来研究可进一步探索模型的可解释性,分析特定蛋白质特征对噬菌体宿主范围的决定作用,从而为理性设计噬菌体治疗方案提供更深入的理论依据。该研究为抗生素替代疗法的开发提供了重要的计算生物学工具,推动了精准医学在感染治疗领域的应用发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号