综述:机器学习在预测蛋白质-配体结合亲和力方面的最新进展

《Current Opinion in Structural Biology》:Recent advances in machine learning predictions of protein-ligand binding affinities

【字体: 时间:2025年11月30日 来源:Current Opinion in Structural Biology 7

编辑推荐:

  结合亲和力预测的机器学习方法研究进展,涵盖结构基、配体基及数学AI(拓扑深度学习)模型,分析其优势与数据质量、可解释性等挑战,探讨未来融合可解释AI与迁移学习的方向。

  
Jian Jiang|Daixin Li|Guilin Wang|Guo-Wei Wei
中国湖北省武汉市武汉纺织大学数学与统计学院非线性科学研究中心,430200
准确预测蛋白质-配体结合亲和力是合理药物设计中的核心任务,因为它直接影响命中发现、先导化合物优化和化合物优先级排序。传统方法通常存在准确性有限、计算成本高或依赖于启发式评分函数的问题。机器学习(ML)的最新进展为结合亲和力预测引入了新的范式。在这篇综述中,我们回顾了基于ML的蛋白质-配体结合亲和力预测的最新发展,涵盖了多种方向,包括利用三维构象数据的结构基方法、采用拓扑不变量的配体基模型,以及针对不同预测场景的混合或替代框架。我们重点介绍了从传统监督学习到深度学习架构的各种代表性算法。此外,我们还讨论了该领域目前面临的挑战。最后,我们概述了新兴趋势和潜在的未来发展方向,这些方向有望进一步提高药物发现流程中结合亲和力预测的准确性和适用性。

引言

蛋白质-配体相互作用是许多生物过程的基础,也是药物发现的核心。小分子配体与其靶标蛋白质之间的结合亲和力(BA)在很大程度上决定了治疗效果。因此,准确预测BA对于合理药物设计至关重要[1]。传统上,人们使用等温滴定量热法(ITC)[2]和表面等离子体共振(SPR)[3]等实验方法,并结合X射线晶体学来测量BA[4]。尽管这些技术提供了详细的热力学和结构信息,但它们通常成本高昂、耗时且通量低,限制了其在现代药物发现中的应用[5]。
近年来,机器学习(ML)作为一种有前景的解决方案应运而生,能够从大型数据集中学习复杂模式[6,7]。最早的ML模型之一是由Ballester等人开发的[8]。这些ML模型涵盖了从传统回归器到先进的深度学习框架,包括图神经网络和变换器。它们通常结合多种输入,如蛋白质序列、三维(3D)结构和分子属性,以提高预测准确性[9]。尽管取得了显著进展,但在预测蛋白质-配体相互作用方面,ML仍面临一些挑战。主要障碍包括训练数据的质量和多样性有限、模型预测缺乏可解释性,以及对新蛋白质或配体的泛化能力不足——这些问题继续阻碍了基于ML的方法在现实世界药物开发流程中的全面应用[10]。
这篇综述总结了基于ML的BA预测的最新进展。“基于结构的结合亲和力预测”和“基于配体的结合亲和力预测”部分讨论了基于蛋白质和配体特征的ML方法,并通过案例研究展示了模型的有效性。“用于蛋白质-配体结合亲和力预测的数学AI方法”部分回顾了应用于蛋白质-配体结合亲和力预测的数学人工智能(AI)技术。“结合亲和力预测的其他方向”部分将讨论扩展到更广泛的应用领域,如先导化合物优化、ADMET(吸收、分布、代谢、排泄和毒性)预测、突变分析和多靶点建模。“结合亲和力预测的自由能扰动方法”部分解决了数据质量、泛化能力、可解释性和计算成本方面的当前限制。最后,“挑战与限制”部分概述了未来的发展方向,包括可解释AI、迁移学习、基础模型和量子计算等。通过回顾这些发展,我们旨在提供一个前瞻性的视角,以支持BA预测及其在药物发现工作流程中的持续创新。

结构基结合亲和力预测中的机器学习

机器学习已成为预测蛋白质-配体BA的重要工具,它将实验数据与计算模型相结合。准确的BA预测在药物发现中至关重要,可以指导化合物选择和优化实验验证。结合结构信息(如对接分数、分子动力学(MD)模拟和特定案例的结构特征)显著提高了ML的预测能力,加深了我们对分子相互作用的理解[11]。

基于配体的结合亲和力预测中的机器学习

除了结构基方法外,基于配体的方法在预测蛋白质-配体BA方面也发挥着重要作用,尤其是在靶标蛋白质的结构数据有限或不可用时。这些模型仅依赖配体化学特征,提供了一种互补的、与靶标无关的BA预测策略,有助于先导化合物的识别和优化[1,17]。
基于配体的ML中的一个关键步骤是分子表示,通常使用描述符和指纹。

用于蛋白质-配体结合亲和力预测的数学AI方法

数学AI关注AI和ML的数学基础。拓扑深度学习(TDL)由Cang和Wei在2017年首次提出[21]。TDL作为数据科学中的一个独特范式,已成为合理学习的新前沿[22]。TDL在虚拟筛选和蛋白质-配体结合亲和力预测中取得了优异的结果[23, 24, 25]。值得注意的是,TDL在D3R大奖赛中获得了最高奖项

结合亲和力预测的其他方向

随着计算方法的进步,ML已成为预测蛋白质-配体BA的关键工具,特别是在多靶点药物发现、ADMET分析和耐药性突变分析等复杂场景中[31,32]。与传统实验相比,基于ML的方法通过整合配体指纹、对接构象和生物活性谱等数据类型,显著提高了预测速度和规模[9]。这些能力使得早期评估成为可能

结合亲和力预测的自由能扰动方法

自由能扰动(FEP)是一种基于物理的严格方法,通过估计结合状态和未结合状态之间的自由能差异来预测蛋白质-配体结合亲和力。尽管计算成本较高,但FEP的准确性和可解释性使其成为验证和指导基于ML的亲和力模型及结构-活性关系分析的金标准。最近的研究表明,通过用结构、构象或

挑战与限制

尽管取得了这些进展,但仍有几个挑战限制了ML在药物发现流程中的全面应用。一个主要问题是训练数据集的质量、覆盖范围和多样性有限,尤其是对于罕见靶标或耐药性突变[9,39]。公共数据集往往缺乏动态数据,并且偏向于研究较为充分的蛋白质和配体,这阻碍了模型的泛化能力。此外,许多数据集仅提供静态结构快照,无法捕捉动态构象变化

未来展望与趋势

未来,几种策略可能解决上述挑战。首先,开发可解释AI(XAI)技术对于弥合预测与机制理解之间的差距至关重要。注意力机制、特征归因和结合位点分析工具可以帮助提高模型透明度。针对蛋白质动力学和药物机制的特定领域XAI工具将进一步增强可解释性[60]。数学AI和TDL为合理学习提供了可行的解决方案[23,22]。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

致谢

本工作部分得到了MSU Research Foundation的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号