编辑推荐:
研究人员开发 GES-PPI 模型预测蛋白质突变对 PPI 结合亲和力的影响,优于基线模型,助力相关研究。
在生命科学的微观世界里,蛋白质之间的相互作用就像一场精妙的 “舞蹈”,它们彼此配合,参与着各种重要的生物过程,从信号通路的传导到免疫反应的启动,无一不有它们的身影。这些相互作用一旦出现异常,就可能引发各种疾病,比如一些基因突变导致的蛋白质 - 蛋白质相互作用改变,与癌症、自身免疫性疾病等的发生发展密切相关。然而,要想深入了解这些变化,预测蛋白质突变对蛋白质 - 蛋白质相互作用(Protein–Protein Interactions,PPIs)的影响,却困难重重。传统的湿实验方法不仅耗时费力,而且面对复杂的蛋白质结构和多样的突变情况,往往力不从心。
为了解决这些难题,来自加拿大西部大学(University of Western)、曼尼托巴大学(University of Manitoba)等机构的研究人员展开了深入研究。他们致力于开发一种高效、准确的方法,来预测蛋白质突变对 PPIs 的影响,这对于理解疾病机制、开发新型药物具有重要意义。最终,他们的研究成果发表在《Journal of Cheminformatics》上。
研究人员在本次研究中用到了多个关键技术方法。在数据处理方面,使用了五个包含已知蛋白质单点和多点突变的开源数据集,对于缺乏高分辨率结构的数据集,则借助 Rosetta3 工具基于序列信息构建同源模型来生成图输入。在模型构建上,提出了一种名为 GES-PPI(a Graph-based neural network integrated with Evolutionary Scale modeling for Protein–Protein Interactions prediction)的新架构,该模型结合了门控图神经网络(gated GNN)和图 Transformer,还融入了大规模预训练的蛋白质语言模型(如 ESM)提供的特征 。同时,采用监督学习方法训练模型,并通过十折交叉验证进行模型选择,使用皮尔逊相关系数(Rp)和均方根误差(RMSE)评估模型性能。
下面来看具体的研究结果。
- 模型性能:研究人员在多个数据集上对 GES-PPI 模型进行了评估。在三个单点突变数据集(S2648、S3421、S4169)和两个多点突变数据集(M1101、M1707)上,GES-PPI 模型均表现出色,获得了最高的相关系数和最低的 RMSE。即使去除 ESM 模块后(gnn_PPI 模型),在部分数据集上仍优于基准模型。此外,模型的相关性值较为稳定,标准差较小,且计算效率较高,平均预测单个突变结合亲和力变化的时间为 16 秒。
- 消融分析:通过在 S2648 数据集上进行消融分析,研究人员发现去除模型中的任何一个重要组件(如图 Transformer、“修剪” 步骤、ESM 等)都会显著影响模型性能,这表明模型的各个组件在预测 ΔΔG 时都起着关键作用。
- 案例研究:以 SARS-CoV-2 为例进行案例研究,GES-PPI 模型在预测抗体(Abs)突变对 SARS-CoV-2 结合亲和力的影响方面表现良好,在更复杂的 Abs 数据集上,其相关性结果达到 0.63,显著优于 Mutabind2(相关性为 0.29),显示出该模型在特殊且具有挑战性的场景下的应用潜力。
- 可解释性:利用 Transformer 中的注意力机制,研究人员能够识别蛋白质结构中对预测有重要影响的区域。以大肠杆菌的 1A23 蛋白为例,通过提取注意力权重并与初始特征矩阵相关联,发现突变位点周围较亮的区域在能量变化计算中贡献更大,这有助于深入理解蛋白质结构与功能的关系。
在研究结论和讨论部分,研究人员指出,尽管该模型取得了不错的成果,但也存在一定局限性。例如,当前数据库中蛋白质热力学测量数据的稀缺,可能限制模型在更大、更多样化数据集上的应用;3D 结构质量、实验条件差异以及突变多样性的限制等,都可能影响预测结果的准确性和模型的实用性。然而,该模型在单点和多点突变数据集上的强大泛化能力不容忽视,其研究成果对蛋白质工程和药物发现具有重要意义。通过分析注意力权重,还能揭示对模型预测有重要影响的特定残基、结合位点或相互作用模式,为进一步研究蛋白质 - 蛋白质相互作用的机制提供了有价值的见解,有助于指导实验验证和未来研究方向的探索。未来,研究人员可以进一步拓展研究范围,关注整个蛋白质结构,提高多点突变预测的准确性,同时通过纳入更大、更多样化的数据集或探索不同特征和模型来优化模型性能。