-
生物通官微
陪你抓住生命科技
跳动的脉搏
深圳研究生院陈语谦团队在AI4S领域领域取得进展
【字体: 大 中 小 】 时间:2025年01月07日 来源:北京大学新闻网
编辑推荐:
北京大学深圳研究生院研究员、科学智能(AI for Science, AI4S)中心主任陈语谦团队在人工智能辅助药物设计领域取得了重要进展,成果发表在2024年12月的IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI, 人工智能顶级期刊,IF="20.8)。
近年来,人工智能技术在药物设计中发挥关键作用,尤其是在蛋白质-配体结合亲和力(Protein-Ligand Binding Affinity, PLA)预测、药物-药物相互作用(Drug-Drug Interactions, DDI)预测、化合物性质预测、化合物逆合成设计等方面,加快了从庞大的化学空间中筛选出潜在药物的过程。北京大学深圳研究生院研究员、科学智能(AI for Science, AI4S)中心主任陈语谦团队在人工智能辅助药物设计领域取得了重要进展,成果发表在2024年12月的IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI, 人工智能顶级期刊,IF="20.8),相关工作还包括了三篇发表于2024年的IEEE" Transactions on Neural Networks and Learning Systems(TNNLS, 人工智能顶级期刊,IF="10.2)和2023年基于AI技术推断逆合成步骤的Nature Communications(NC,综合顶刊,IF="14.7)。
当前,在蛋白质-配体结合亲和力预测研究中,基于相互作用图神经网络(Interaction Graph Neural Network, IGNN)的深度学习打分函数表现出出色的性能和发展潜力。这主要得益于此类模型在蛋白-配体相互作用表征中融入了一定的物理化学归纳偏置,使其有机会学习并捕捉复合物结构中关键的相互作用特征,从而实现几何亲和力的有效预测。然而,许多IGNN模型仍然采用同质图进行表征,这在一定程度上忽略了对配体而言占主导地位的非共价相互作用。在消息传递过程中,该做法弱化了配体分子内部共价键对节点特征更新的影响,从而导致潜在信息的丢失,如图1(a)所示。此外,大多数3D-GNN模型采用“瓶颈”架构:输入的图结构经过多层图卷积后,通常通过全局池化将其压缩为单一向量表征(如图1(b)所示)。然而,这一处理方式可能会使得3D结构信息在压缩过程丢失。针对上述问题,论文提出了一种改进的亲合性打分方法EHIGN。EHIGN采用异质图建模方法(如图1(c)),并将结合亲和力视为蛋白-配体原子间非共价相互作用贡献的加和,再通过偏差校正项对潜在偏差进行校正(如图1(d)),对于模型的泛化能力起到了明显的提升作用,相关成果发表在TPAMI上(https://ieeexplore.ieee.org/abstract/document/10530021)。
EHIGH总体框架
在药物-药物相互作用预测领域,深度学习方法虽然已被广泛应用,但其在跨域泛化方面仍存在较大局限性。针对这一问题,论文提出了一种域不变子结构相互作用学习方法用于预测DDI(DSIL-DDI)。DSIL-DDI将子结构相互作用视为DDI的域不变表示。在使用图神经网络(GNN)提取子结构后,子结构交互模块用于学习领域不变子结构交互模式。对于提出的子结构交互模块,其模拟子结构中属性的交互。为了学习领域不变表示,DSIL-DDI中设计了一个额外的损失函数,可以从不相关的子结构相互作用中去除噪声。对于一对药物,模块会输出DDI表示。该表示包含与此DDI事件对应的最重要的子结构交互模式。将表示提供给分类器以获得此DDI的类别。对于分布外DDI预测,计算陌生域上的DDI表示(无需重新训练),然后按指定数量的类别对这些表示进行聚类。DSIL-DDI 的总体架构如图2所示。相关成果发表在TNNLS(https://ieeexplore.ieee.org/abstract/document/10044475)。
DSIL-DDI总体框架
在化合物性质预测领域,深度神经网络在加速与提升药物发现过程方面已取得显著进展。然而,这些技术往往需要大量标注数据,才能对分子特性进行精确预测。现实中,在药物研发初期阶段,对于新型分子或其类似物,相关理化性质与生物活性数据的缺失依然是重大难题。这一困境使得将深度神经网络应用于少样本药物发现面临严峻挑战。为此,论文提出了一种结合图注意力网络(Graph Attention Network, GAT)的元学习框架——Meta-GAT,用以在低数据条件下预测化合物性质,如图3所示。GAT通过三重注意力机制从原子层面捕捉原子团的局部影响,从而有效学习原子团对化合物整体性质的贡献。此外,课题组还构建了一个专用于化合物性质预测的元学习基准数据集(Meta-molnet),如图4所示。相关研究成果已发表在TNNLS(https://ieeexplore.ieee.org/abstract/document/10436119,
https://ieeexplore.ieee.org/abstract/document/10059171)。
Meta-GAT的总体框架
Meta-molnet总体框
在逆合成最佳步骤预测领域中,目前逆的合成模型在预测精度、多样性以及可解释性等方面的局限性限制了其在合成路线规划中的实际应用。如何从化学家思考反应发生的角度出发提升基于AI的逆合成预测模型的效果和适用性仍然是一个迫切重要的研究课题。为此,论文基于反应转化的简易机理提出了一种基于图神经网络的图到编辑架构Graph2Edits,用于逆合成预测,如图5所示。具体地说,模型将逆合成反应预测表示为通过一系列相互关联的图编辑来完成产物-中间体-反应物推导的过程来学习反应转化的规则,就像化学家思考反应是如何发生的一样;端到端的模型架构以自回归的方式生成任意长度的图编辑序列,能够增强多个生成步骤之间的紧密联系,提高其在多中心反应中的适用性和预测的多样性;使用定向消息传递神经网络D-MPNN对局部原子/键和全局图特征进行编码以充分利用化合物的结构信息来预测原子/键编辑和生成终止符,并将作为离去基团的子图添加到中间体完成反应物的生成以贴近更真实的反应转化过程,可以显著减少生成步骤,提升其预测性能。相关研究成果已发表在Nature Communications(https://www.nature.com/articles/s41467-023-38851-5)。
Graph2Edits总体框架
上述工作论文通讯作者为陈语谦,研究得到国家自然科学基金面上和广州市、深圳市项目支持。
参考文献
[1] Z. Yang, W. Zhong, Q. Lv, T. Dong, G. Chen and C. Y. -C. Chen, "Interaction-Based Inductive Bias in Graph Neural Networks: Enhancing Protein-Ligand Binding Affinity Predictions From 3D Structures," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 12, pp. 8191-8208, Dec. 2024.
[2] Z. Tang, G. Chen, H. Yang, W. Zhong and C. Y. -C. Chen, "DSIL-DDI: A Domain-Invariant Substructure Interaction Learning for Generalizable Drug–Drug Interaction Prediction," in IEEE Transactions on Neural Networks and Learning Systems, vol. 35, no. 8, pp. 10552-10560, Aug. 2024.
[3] Q. Lv, G. Chen, Z. Yang, W. Zhong and C. Y. -C. Chen, "Meta Learning With Graph Attention Networks for Low-Data Drug Discovery," in IEEE Transactions on Neural Networks and Learning Systems, vol. 35, no. 8, pp. 11218-11230, Aug. 2024.
[4] Q. Lv, G. Chen, Z. Yang, W. Zhong and C. Y. -C. Chen, "Meta-MolNet: A Cross-Domain Benchmark for Few Examples Drug Discovery," in IEEE Transactions on Neural Networks and Learning Systems, doi: 10.1109/TNNLS.2024.3359657.
[5] Zhong W, Yang Z, Chen C Y C. Retrosynthesis prediction using an end-to-end graph generative architecture for molecular graph editing[J]. Nature Communications, 2023, 14(1): 3009.