pCPPs-sADNN:基于自注意力深度神经网络预测细胞穿膜肽的新方法

《Scientific Reports》:pCPPs-sADNN: predicting cell-penetrating peptides using self-attention based deep neural network

【字体: 时间:2025年12月03日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对细胞穿膜肽(CPPs)实验鉴定方法耗时费力的问题,开发了pCPPs-sADNN预测模型。该研究创新性地融合了ProtT5和ESM-2蛋白语言模型特征与Conjoint Triad Features,采用RF-RFE特征选择和ADASYN样本平衡技术,最终通过自注意力深度神经网络实现了96.84%的预测准确率和0.99的AUC值,为CPPs的计算机辅助发现提供了高效工具。

  
在生物医学研究领域,细胞穿膜肽(CPPs)因其独特的跨膜运输能力而备受关注。这些由5-50个氨基酸组成的短肽能够携带各种生物活性分子(如蛋白质、核酸、纳米颗粒)进入细胞内部,在药物递送、基因治疗和分子成像等方面展现出巨大应用潜力。然而,传统的实验方法鉴定CPPs存在周期长、成本高、通量低等局限性,严重制约了其研究和应用进程。
目前的计算预测方法虽然在一定程度上缓解了实验压力,但仍面临诸多挑战。大多数现有模型依赖于简单的序列特征和理化性质编码,难以捕捉CPPs复杂的结构特征和上下文关系。同时,这些方法往往忽视了序列内部的组合规律,导致预测准确性受限。此外,类不平衡问题、特征冗余以及模型解释性差等因素也影响了预测效果的进一步提升。
为了突破这些技术瓶颈,来自巴基斯坦Abdul Wali Khan University Mardan和沙特阿拉伯King Faisal University的研究团队在《Scientific Reports》上发表了题为"pCPPs-sADNN: predicting cell-penetrating peptides using self-attention based deep neural network"的研究论文,提出了一种创新的计算预测框架。
本研究采用多模态特征融合策略,结合了三种不同类型的特征提取方法:基于蛋白质语言模型的ProtT5和ESM-2分别生成1024维和1280维的特征向量,捕捉肽序列的语义和进化信息;Conjoint Triad Features(CTF)则通过将20种氨基酸按侧链偶极子和体积分为7类,计算三联体频率,生成343维的物理化学特征向量。将这三类特征串联形成2647维的混合特征向量后,研究团队采用Random Forest-based Recursive Feature Elimination(RF-RFE)进行特征选择,最终保留247个最具判别性的特征。为解决类不平衡问题,使用Adaptive Synthetic Sampling Approach(ADASYN)生成合成样本。核心预测模型采用自注意力机制增强的深度神经网络(sADNN),该模型包含三个隐藏层(32、64、128个神经元),使用ReLU激活函数和0.2的dropout率,通过40个epoch进行训练。
特征提取与融合效果验证
研究团队首先评估了不同特征组合对预测性能的影响。单独使用CTF、ESM-2和ProtT5特征时,sADNN模型分别达到92.19%、91.33%和91.06%的准确率。而将三类特征融合后,模型性能显著提升至95.74%的准确率和0.98的AUC值,证明多视角特征融合能更全面地描述CPPs的特性。
特征选择优化分析
通过RF-RFE特征选择技术从2647维混合特征中筛选出247个最优特征后,sADNN模型在训练数据集上表现出色,准确率达到98.58%,灵敏度为98.92%,特异性为98.26%,MCC和AUC值分别达到0.97和0.99。这一结果明显优于未经过特征选择的模型,表明特征选择有效去除了冗余信息,提升了模型效率。
模型泛化能力评估
在独立测试集Test_CPP946上的评估结果显示,pCPPs-sADNN模型实现了96.84%的准确率,96.32%的灵敏度和97.74%的特异性,MCC和AUC值分别为0.94和0.99。与现有先进方法相比,该模型在准确率上比EnDM-CPP提高了1.89%,在灵敏度上提升了4.36%,展现出优异的泛化能力。
特征分布可视化
通过t-SNE可视化技术对特征分布进行分析发现,经过特征选择后的混合特征能更好地区分CPPs和非CPPs样本,形成更清晰的聚类边界。这一结果从视觉角度验证了所提特征表示方法的有效性。
模型可解释性分析
利用SHAP框架对模型决策过程进行解释,识别出了对预测贡献最大的前10个特征。分析结果显示,这些特征主要来源于蛋白语言模型的高维嵌入,反映了序列上下文中重要的生物学信息,增强了模型的可信度和可解释性。
消融实验验证
研究还通过嵌套交叉验证和特征归一化消融实验验证了方法的稳健性。结果显示,采用z-score和min-max双重归一化后,模型性能进一步提升,准确率达到98.58%,证明了数据处理流程的有效性。
该研究开发的pCPPs-sADNN框架通过创新性地结合多模态特征表示、智能特征选择和自注意力机制,在CPPs预测任务上实现了state-of-the-art的性能。该方法不仅为CPPs的高通量鉴定提供了可靠的计算工具,其技术路线也可扩展至其他功能性肽的预测研究中,对推进肽类药物研发和精准医疗具有重要意义。未来工作中,研究团队计划将该模型部署为在线预测平台,并进一步探索其在多肽药物设计中的实际应用价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号