基于生成式Transformer和二维表征的深度胶囊网络在蛋白质琥珀酰化位点预测中的创新研究

《iScience》:Identifying protein succinylation sites using generative transformer and a two-dimensional representation with a deep capsule network

【字体: 时间:2025年12月03日 来源:iScience 4.1

编辑推荐:

  本研究针对蛋白质琥珀酰化位点识别准确率低的问题,开发了iSucc-SnCNs计算模型。该模型整合ProtGPT2语义特征、SMR-HOG/SMR-DCT结构特征和PSSM-DWT进化特征,通过BTGA算法优选特征后采用自归一化胶囊网络(Sn-CapsNet)进行训练。在训练集上达到92.92%准确率和0.96 AUC,较传统模型提升17%,在两个独立验证集上分别提升13%和2%,为蛋白质功能研究和药物发现提供了高效工具。

  
在细胞生命活动的精密调控网络中,蛋白质后翻译修饰(PTM)如同精准的分子开关,通过化学修饰动态调节蛋白质的功能。在已知的400多种PTM类型中,赖氨酸琥珀酰化(succinylation)近年来备受关注,这种在真核和原核生物中高度保守的修饰,通过在赖氨酸残基上共价连接琥珀酰基团,显著改变蛋白质结构和功能。异常琥珀酰化与炎症、结核病、过敏性皮炎和神经系统疾病等多种病理过程密切相关,因此精准识别琥珀酰化位点对理解蛋白质功能和推动靶向药物研发具有重大意义。
传统实验方法鉴定琥珀酰化位点存在成本高、耗时长、难以应对海量蛋白质序列的局限性。虽然已有多种计算预测工具被开发,如iSuc-PreAAC、SucPred、SuccFind等模型,但这些方法大多依赖序列频率特征和传统机器学习算法,在捕捉局部模序信息和模型泛化能力方面仍有不足。随着深度学习技术在PTM预测领域的应用,DeepSuccinylSite、HybridSucc等模型虽取得一定进展,但在特征表征全面性和计算效率方面仍有提升空间。
针对这些挑战,研究人员在《iScience》上发表了题为"Identifying protein succinylation sites using generative transformer and a two-dimensional representation with a deep capsule network"的研究,开发了iSucc-SnCNs创新计算框架。该研究通过多维度特征融合和新型网络架构,实现了琥珀酰化位点预测准确率的显著提升。
关键技术方法包括:使用ProtGPT2蛋白质语言模型提取语义特征;通过SMR矩阵结合DCT和HOG变换获得结构特征;利用PSSM矩阵结合DWT提取进化特征;采用BTGA+KNN算法进行特征选择;构建自归一化胶囊网络(Sn-CapsNet)进行分类预测。训练数据集包含9,510条序列(4,755个琥珀酰化位点和4,755个非琥珀酰化位点),并使用两个独立数据集(Ind-I和Ind-II)进行验证。
compositional and positional analysis of the training samples
通过对训练样本的组成和位置偏好分析发现,琥珀酰化位点序列中Ala、Val、Asp、Arg、Gly和Tyr等氨基酸过表达,而非琥珀酰化位点中Glu、Lys、Pro、Gln和Ser占优势。位置偏好分析显示,在残基6-10和21-26位置存在Lys和Arg的高度富集,伴随局部Asp富集和疏水位置分散分布,而Glu、Ser和Pro则被持续利用,表明位置特异性电荷偏差可区分正负样本。
analysis of training samples using proposed encoding descriptors and learning models
不同特征表征方法和学习模型的预测效果比较显示,ProtGPT2特征结合SnCapsNet分类器获得85.34%准确率;SMR-DCT特征达到83.73%准确率;PSSM-DWT特征表现最佳,获得88.80%准确率;SMR-HOG特征取得87.78%准确率。而混合特征向量(ProtGPT2+SMR-HOG+PSSM-DWT+SMR-DCT)将准确率提升至90.37%,AUC达到0.94,证明多视角特征融合的有效性。
interpretation of the extracted features
通过t-SNE可视化分析发现,单一特征向量(ProtGPT2、SMR-HOG、PSSM-DWT、SMR-DCT)的样本分布存在重叠,区分能力有限。混合特征向量虽有所改善,但仍有部分重叠。而BTGA特征选择后,样本分布呈现明显分离,显著提升模型区分能力。SHAP分析进一步识别出对预测贡献最大的特征,为模型可解释性提供支持。
impact of the proposed iSucc-SnCNs model using independent samples
在独立数据集验证中,iSucc-SnCNs在Ind-I数据集上获得89.43%准确率和0.94 AUC,较DNN提升6.7%,较TCN提升3.45%,较传统CapsNet提升3.38%。在不平衡数据集Ind-II上仍保持87.19%准确率和0.93 AUC,证明模型良好的泛化能力。传统机器学习方法(ETC和CatBoost)表现较差,准确率仅为54%左右。
comparison of the iSucc-SnCNs with current computational models
与现有方法比较显示,iSucc-SnCNs在训练集上92.93%的准确率较CbiLSuccSite提升17%。在独立测试中,其性能也显著优于GPSuc、DeepSuccinylSite、LMSuccSite、pSuc-EDBAM、MDCAN-Lys等现有先进方法,证明该方法在琥珀酰化位点预测领域的领先地位。
研究结论表明,iSucc-SnCNs通过整合生成式Transformer和二维表征技术,结合改进的深度胶囊网络,有效克服了传统序列方法的局限性。该模型不仅显著提升预测精度,还具有良好的泛化能力和生物解释性,为大规模蛋白质功能分析和药物靶点发现提供了可靠工具。未来研究方向包括扩展至非琥珀酰化位点预测、整合多模态语言模型、开发序列到图像的转换方法以及构建通用图卷积模型预测多类别PTM。
该研究的创新性在于将自归一化概念引入胶囊网络,显著降低训练成本;通过BTGA算法实现高效特征选择;融合多维度特征全面捕捉序列信息。这些技术突破为蛋白质修饰研究领域提供了新思路,有望在精准医学和药物研发中发挥重要作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号