清华大学药学院田博学课题组基于蛋白质语言模型和对比学习预测蛋白质-小分子结合位点

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2024年11月10日 来源：清华大学药学院

编辑推荐：

　　最新研究速递 2024年11月6日清华大学药学院田博学课题组在Journal of Cheminformatics发表题为“Protein-small molecule binding site prediction based on a pre-trained protein language model with contrastive learning”的文章

最新研究速递

2024年11月6日清华大学药学院田博学课题组在Journal of Cheminformatics发表题为“Protein-small molecule binding site prediction based on a pre-trained protein language model with contrastive learning”的文章。该研究提出了一个基于与训练的蛋白质语言模型和对比学习的蛋白质-小分子结合位点预测模型（CLAPE-SMB），并整理了蛋白质-小分子结合位点数据集UniProtSMB，CLAPE-SMB在UniProtSMB的测试集上达到了0.699的MCC，优于其他模型。与基于结构的预测方法相比，CLAPE-SMB特别适用于缺乏精确实验结构的蛋白质，如固有无序蛋白（IDP）。这就为理解蛋白质-小分子相互作用提供新的视角，并为药物设计提供新的可能。

研究背景

蛋白质与小分子的相互作用在很多生命活动中发挥关键作用，例如催化反应、信号传导、代谢调控等。小分子通过与蛋白质的特定位点结合，调控其活性，进而影响生物体内的多种功能。为了找到蛋白质上的这些结合位点，科学家们采用了许多实验方法，如表面等离子体共振（SPR）、质谱分析和X射线晶体学等高分辨率成像技术。这些实验方法能精准定位结合位点，但耗时且资源需求大。计算方法为结合位点的预测提供了高效的补充，主要分为基于蛋白质结构和基于序列的预测模型。基于结构的模型，如ScanNet和DeepSite，利用蛋白质的三维结构信息来确定潜在的结合位点，精度较高，但对蛋白质结构的依赖限制了预测范围、增加了应用难度。相比之下，基于序列的模型摆脱对结构的依赖，使用简单但精确度较低。如GraphBind和DeepProSite，在仅使用序列信息的情况下表现一般。因此，目前基于蛋白质序列的小分子结合位点的预测仍然是一个具有挑战性的问题。

研究过程

PROCESS

为了解决目前模型准确度低的问题，我们提出了CLAPE-SMB。CLAPE-SMB由三个模块组成。第一是蛋白质语言模型ESM-2，将一维的序列信息编码为二维的特征矩阵。第二是多层感知机（MLP），将二维信息转化为残基级别的小分子结合概率。第三是损失函数模块，包括解决类别不平衡的focal loss和对比学习损失函数（TCL）。

图1：CLAPE-SMB的结构

为了使CLAPE-SMB有更好的泛化能力，我们构建了UniProtSMB数据集作为训练集。我们从UniProtKB数据库中筛选出具有三维结构和小分子结合位点的实验验证蛋白质，去除长度过长的蛋白质并标注标签。随后，进行聚类去除冗余蛋白，形成UniProtSMB数据集。最后，将UniProtSMB数据集划分为训练集、验证集和测试集。

图2：UniProtSMB数据集的构建流程

IDP没有稳定的三维结构。因此依赖准确结构信息进行预测的模型很难处理IDP。我们构建了IDP数据集，CLAPE-SMB在其上获得了0.815的MCC。进一步，我们选取了两个在固有无序区域（IDR）上有小分子结合位点的IDP进行案例研究，结果显示CLAPE-SMB能够准确预测出IDR上的结合位点。

图3：固有无序蛋白的案例研究

绝大多数蛋白质尚未解析结构，其中包括大量膜蛋白，而膜蛋白通常与多种小分子结合。未来，CLAPE-SMB可以用于预测膜蛋白的小分子结合情况。此外，CLAPE-SMB还能够结合特定小分子的SMILES信息，仅预测该小分子是否与某蛋白存在结合位点，并定位具体的结合残基。这一功能有望应用于虚拟筛选和老药新用等领域。

研究结论

本研究提出了CLAPE-SMB，它将预训练的蛋白语言模型与对比学习相结合，实现了高精度的小分子结合位点预测，尤其适用于没有晶体结构的蛋白质。我们在基于sc-PDB、JOINED和COACH420构建的非冗余SJC数据集上对CLAPE-SMB进行了训练和测试，获得了0.529的MCC。此外，基于UniProtKB数据构建的UniProtSMB数据集上，CLAPE-SMB在测试集上达到了0.699的MCC。对于包含336条非冗余序列的固有无序蛋白数据集，CLAPE-SMB的MCC高达0.815。对DAPK1、RebH和Nep1的案例分析进一步证明了该工具在药物设计中的潜在应用价值。

致谢

清华大学药学院田博学副教授为本文的通讯作者。清华大学本科生王珏和田博学课题组已毕业学生刘宇帆为本文的共同第一作者。本课题得到了Beijing Frontier Research Center for Biological Structure (No. 041500002), Tsinghua University Initiative Scientific Research Program (No.20231080030), the Tsinghua-Peking University Center for Life Sciences (No.20111770319)支持。

论文链接：https://doi.org/10.1186/s13321-024-00920-2

热点排行

新闻专题

联系信箱：

粤ICP备09063491号