基于多特征混合深度学习框架HybridKla的蛋白质赖氨酸乳酸化位点精准预测新策略

【字体: 时间:2025年07月31日 来源:Briefings in Bioinformatics 7.7

编辑推荐:

  本研究针对蛋白质赖氨酸乳酸化(Kla)位点鉴定面临的实验技术成本高、现有计算模型数据集有限等挑战,开发了集成ESM2语言模型、LSTM模块及六种手工特征的HybridKla预测系统。通过构建包含23,984个Kla位点的大规模数据集,模型AUC值达0.8460,较现有工具提升>28.9%,为探索Kla在肿瘤代谢、免疫调控等过程中的作用提供了高效计算工具。

  

在细胞代谢领域,乳酸长期被视为糖酵解的废物副产物。直到2019年张等学者发现乳酸能诱导组蛋白赖氨酸乳酸化(Kla)这种新型翻译后修饰(PTM),才揭示其作为信号分子的关键作用。Kla通过调控Arg1等基因表达驱动巨噬细胞M1-M2表型转换,与肿瘤进展、神经系统疾病等密切相关。然而传统质谱检测方法存在通量低、成本高的问题,而现有计算工具如AutoKla(0.6563 AUC)和DeepKla(0.5563 AUC)受限于小数据集(分别仅2375和1897个位点),预测性能亟待提升。

郑州大学基础医学院病理生理学教研室的研究团队通过系统文献挖掘,构建了包含23,984个Kla位点、覆盖14个物种的迄今最大基准数据集。研究创新性地设计了融合自动化特征与手工特征的混合系统:采用30层ESM2蛋白语言模型提取640维特征,其自注意力机制(Attention(Q,K,V)=softmax(QKT/√dk)V)能捕捉氨基酸远程相互作用;六层LSTM模块通过遗忘门(ft)、输入门(it)等结构学习序列特征;同时整合ACF、CKSAAP等六种手工描述符。通过五折交叉验证,最终构建的HybridKla模型在独立测试集上达到0.8325 AUC,较现有工具提升52.07%。

关键技术包括:1)从7297个蛋白质中提取KSP(25,25)肽段构建平衡数据集;2)采用ESM2模型均值池化策略替代传统[CLS]标记;3)设计包含128维ReLU激活层的元模型集成八类特征;4)基于pLogo分析发现Kla位点侧翼偏好丙氨酸(A)和甘氨酸(G)富集;5)使用超几何检验进行GO/KEGG富集分析。

多物种Kla位点分布特征

分析14个物种的16,705个人源Kla位点发现,组蛋白H3K18等关键位点呈现显著保守性。序列标志显示-1位A和+1位G的频率分别达38.7%和29.5%,而背景序列中赖氨酸(K)在-9、+8等位置富集度不足5%。

多特征系统性能验证

ESM2单独预测AUC为0.8283,与LSTM(0.8160)组合后提升至0.8359。引入CKSAAP特征的三元模型(ESM2+LSTM+CKSAAP)贡献了主要性能增益,其AUPRC达0.8165。注意力热图显示ESM2第17头能识别X±3残基的空间相互作用模式。

生物学功能解析

GO分析显示人源Kla蛋白显著富集于小分子分解代谢过程(GO:0044282,P<1×10-15)。KEGG通路分析揭示维生素B6代谢(hsa00750)和丙酮酸代谢(hsa00620)等关键代谢途径的调控网络。

该研究通过建立目前最全面的Kla计算预测平台,为解析乳酸介导的表观遗传调控提供了新工具。服务器采用Django+Nginx架构实现(http://transkla.zzu.edu.cn/),支持单序列和批量分析。值得注意的是,近期研究发现AARS1(丙氨酰-tRNA合成酶)能乳酰化抑癌蛋白p53,提示HybridKla在发现新型乳酰转移酶底物方面的应用潜力。未来可通过整合更多物种数据、开发时空特异性预测模块,进一步推动Kla在代谢疾病和肿瘤免疫治疗领域的机制研究。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号