基于MolrProtTrans模型的药物靶点结合亲和力的分类预测

《Analytical Biochemistry》:Classification prediction of drug target binding affinity based on the MolrProtTrans model

【字体: 时间:2025年12月05日 来源:Analytical Biochemistry 2.5

编辑推荐:

  药物重定位中结合分子与蛋白质特征的Transformer模型研究。该模型通过MolR和ProtTrans网络提取分子与蛋白质特征,并引入转置注意力机制与三损失自监督学习,在GPCR和人类靶点数据集上AUC分别达到0.81和0.92,优于传统TransformerCPI等方法。

  
林一村|李远峰|孙伟|王健
吉林大学生物与农业工程学院,长春130022,中国

摘要

预测药物-靶点相互作用对于虚拟药物筛选至关重要。虽然许多模型可以预测小分子与蛋白质之间的结合亲和力,但它们往往过度强调分子特征而忽视了蛋白质的重要特性,从而导致预测结果存在偏差。传统的深度学习模型(如TransformerCPI)在处理G蛋白偶联受体(GPCR)数据集等任务时表现不佳。为了解决这一问题,本研究提出了一种基于Transformer的增强模型,该模型整合了分子和蛋白质信息。通过利用Molr和ProtTrans网络进行特征提取,并结合转置注意力机制和三重损失的自监督学习方法,该模型提高了预测准确性。实验结果表明,所提出的模型在GPCR标签反转数据集上的曲线下面积(AUC)达到了0.81,在人类靶点数据集上的AUC达到了0.92,这些数值均高于我们实验中TransformerCPI和几种基线方法的性能。这些观察结果表明,在我们的实验设置中模型性能有所提升,为推进虚拟药物筛选和药物发现提供了良好的前景。

引言

新药设计的传统过程需要大量的研发投资、时间和资源,导致临床试验的成功率较低。为了提高药物开发的效率并降低成本,计算预测方法变得越来越重要[1]。尽管药物通常是针对特定疾病开发的,但实验数据显示,一种药物可以与多种蛋白质靶点相互作用,而一种蛋白质也可以与多种药物分子结合。此外,药物与其他物质的相互作用可能表明其治疗不同疾病的潜力,这一过程被称为“药物重新定位”[2]。尽管关于药物分子和蛋白质的数据非常丰富,但关于药物-蛋白质结合相互作用的数据仍然有限,这凸显了计算模拟在加速结合确定和简化药物开发过程中的必要性。
结合预测方法通常可以分为基于相似性的方法、基于分子对接的方法和基于特征的方法[3]。一种广泛使用的基于相似性的方法是定量结构-活性关系(QSAR)[4]。然而,当数据稀疏时,这种方法存在显著局限性,因为它们严重依赖于可用样本来进行准确预测。相比之下,基于特征的方法利用数学算法(如最近邻算法[5]、[6]和矩阵分解技术)。最近邻算法通过比较提取的特征来识别特征空间中最相似的药物,从而预测潜在的结合伙伴。矩阵分解则将药物-蛋白质相互作用表示为一个未知值的矩阵,然后将该矩阵分解为两个低秩矩阵,一个代表蛋白质特征,另一个代表药物特征。通过优化这些矩阵以最小化重构误差,可以推断出之前未观察到的药物-蛋白质组合的结合关系。
深度学习模型通过增加网络层来提高复杂性,从而更好地捕捉数据中的复杂关系。批量归一化和残差连接等技术常被用来缓解梯度消失或爆炸的问题[7]。包括自动编码器、深度信念网络和卷积神经网络(CNN)在内的深度学习模型越来越多地应用于分子特征的提取,特别是在蛋白质的3D结构特征方面,从而提高了药物-靶点相互作用(DTI)预测的性能。
图表示方法通过将原子建模为节点、化学键建模为边,提供了更准确的描述。在此背景下,GraphDTA[1]提出了一种创新方法,利用图结构来表示分子数据,并通过图神经网络(GNN)进行处理。为了将分子转换为图表示,可以使用DeepChem和RDKit[8]等工具。Chen等人讨论了现有分子-蛋白质结合预测数据集的几个局限性,包括DUD-E、MUV、Human和BindingDB[9]。例如,DUD-E[10]最初是为基于结构的虚拟药物筛选设计的,但它的数据灵活性有限,并且存在非响应性标签。数据集的一部分包含带有随机噪声的人工生成数据,导致药物分子在不同蛋白质上表现出相似的结合特征。因此,在这些数据集上训练的模型往往更关注分子特征,而不是准确学习潜在的分子-蛋白质结合关系。
为了克服这些挑战,提出了一种基于Transformer架构的新网络模型[11]。在更具挑战性的GPCR数据集上进行了标签反转实验,以实现分子和蛋白质信息的更平衡提取。本研究提出了一种改进的方法,利用Transformer架构构建网络结构,同时对其进行简化以适应相对较小的分子-蛋白质相互作用数据集的大小。具体来说,分别使用Molr和ProtTrans作为分子数据和蛋白质数据的特征提取器。从分子和蛋白质分支得到的向量被输入到Transformer的编码器和解码器中。这些组件被集成到网络中,最终输出提供分子-蛋白质结合预测的分类结果。这种方法旨在提高小数据集中结合预测的准确性和泛化能力。

数据集介绍

数据集介绍

Molr数据来源于美国专利商标局(USPTO)专利数据库[12],最初由Lowe收集,后由Zheng清理[13]。该数据集包含478,612个条目,因此被称为USPTO-479k。每个反应最多包含五种产物,重点关注只有一种产物的反应,同时省略了一些无机小分子,以突出大分子反应的多样性。
GPCR[14]:GLASS数据集记录了GPCR与小分子之间的结合亲和力。GLASS利用实验报告的数据

实验环境

在模型参数设置中,Molr和ProtTrans将分子和蛋白质转换为1000维向量。编码后,分子表示为M*34矩阵,蛋白质表示为N*100矩阵,其中M是分子中的原子数,N是蛋白质序列中的氨基酸数。解码器使用多头注意力机制,保留了原始的八个注意力头。训练时,批量大小设置为64,优化器使用PyTorch的Adam

结论

该模型在之前的工作(如TransformerCPI)基础上进行了改进,整合了先进的分子和蛋白质表示模型MolR和ProtTrans,这些模型已在大规模数据集上使用自监督学习技术进行了训练。这些模型经过微调,以适应本地数据集的特定特征,并增强了网络结合部分中注意力机制的计算复杂性。为了在具有挑战性且容易出错的任务上提高性能

CRediT作者贡献声明

王健:监督、研究、资金获取、概念构思。林一村:写作——审稿与编辑、初稿撰写。孙伟:写作——审稿与编辑。李远峰:写作——初稿撰写、可视化、形式分析、数据整理

数据可用性声明

源代码和处理后的示例数据已存档在GitHub上(https://doi.org/10.5281/zenodo.17621204)。如有进一步咨询,请联系相应作者。

利益冲突声明

作者声明他们没有已知的可能会影响本文工作的财务利益或个人关系。

资助信息

本研究得到了中国国家重点研发计划(项目编号2021YFC2100900)的支持

利益冲突声明

? 作者声明他们没有已知的可能会影响本文工作的财务利益或个人关系。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号