基于蛋白质语言模型的结构与功能预测方法

【字体：大中小】 时间：2024年07月11日 来源：清华大学药学院

编辑推荐：

　　田博学携手清华大学钱锋课题组以及百度团队于2024年6月在eLife杂志中发表了题为“Accurate prediction of CDR-H3 loop structures of antibodies with deep learning”的研究论文，并开发了用于预测抗体CDR-H3的工具包 -- H3-OPT

领取10x Genomics的单细胞多组学分析解决方案>>

最新科研速递

基于蛋白质语言模型的结构与功能预测方法开发

研究背景

随着计算生物学的快速发展，我们正处于一个由数据驱动的生物信息学新时代。蛋白质，作为生命活动的执行者，其结构和功能预测一直是科学研究的核心问题。近年来，深度学习技术的突破性进展，尤其是蛋白质语言模型的兴起，为研究者们提供了一个全新的视角来了解蛋白质在生命体内所扮演的角色。

蛋白质语言模型，通过对大量序列的自监督学习，能够捕捉到氨基酸残基之间复杂的相互作用和模式。这些模型不仅能够预测蛋白质的三维结构，还能够揭示其功能和动态特性，并展现出优于经典计算生物学方法的表现。田博学课题组开发了一系列的基于蛋白质语言模型的方法，在抗体结构、蛋白质与DNA结合位点、细胞色素450酶活性预测等工作中取得了进展，为药物设计、疾病机理研究以及生物工程等领域做出了贡献。

研究内容

基于蛋白质语言模型的结构预测：

抗体药物对癌症、传染病等的治疗和预防具有重要意义。抗体的结构决定性质，因此结构预测对于性质优化至关重要。现有的实验方法通常需要消耗大量的实验资源，而现有的计算生物学方法仅对抗体的框架区有较高的准确度，对影响抗原-抗体结合的CDR-H3结构的准确度较低。随着人工智能方法AlphaFold2（AF2）的出现，蛋白结构预测领域取得了突破。然而，AF2对CDR-H3结构的预测误差依然较大，在CDR-H3的平均Cα-RMSD约为2.85 ?。

田博学携手清华大学钱锋课题组以及百度团队于2024年6月在eLife杂志中发表了题为“Accurate prediction of CDR-H3 loop structures of antibodies with deep learning”的研究论文，并开发了用于预测抗体CDR-H3的工具包 -- H3-OPT。H3-OPT包含了一个基于模板的模板模块以及基于语言模型的深度学习模块并构建了一个非冗余的抗体结构预测数据集。

图1.H3-OPT的架构

H3-OPT在预测抗体结构方面的表现优于现有的方法，包括AF2、IgFold、HelixFold-Single、ESMFold和OmegaFold，最终的CDR-H3的平均Cα-RMSD为2.24 ?。同时，H3-OPT的准确度在钱锋课题组实验解析的三个高精度纳米抗体（Nbs）的结构中得到了进一步验证。

图2.H3-OPT的准确度

此外，田博学课题组发现H3-OPT在预测抗体表面性质方面也显示出了优势，能够预测更接近于实验结构的表面氨基酸分布。在研究抗体-抗原相互作用的方面，田博学课题组通过分子动力学模拟证明了H3-OPT获得的复合物结构的结合亲和力与AF2预测的复合物相比更接近于天然复合物。

图3.H3-OPT的应用

基于语言模型的蛋白-DNA结合位点预测：

DNA与蛋白质相结合是生物学中许多关键生物过程的基础，包括DNA转录、复制、表达等环节。转录因子是一类特殊的DNA结合蛋白质，它们通过与特定的DNA序列（基序）结合，调控基因的转录过程。因此二者的相互作用是维持生物体遗传信息传递的关键一步，现有一些计算方法主要分为从基于序列角度和结构角度来预测二者的结合位点，基于序列的模型如BindN使用了几种氨基酸属性作为序列特征，并通过支持向量机（SVM）对结合残基进行分类。基于结构的方法如GraphBind利用图神经网络（GNN）来提取蛋白的序列和结构特征，并以此来识别蛋白质分子中哪些氨基酸残基与核酸的结合位置。然而基于结构的方法需要准确的蛋白质结构作为模型的输入，因此，目前基于蛋白质序列的DNA结合位点的预测仍然是一个具有挑战性的问题。

田博学课题组于2024年1月在Briefings in Bioinformatics杂志中发表了题为“Protein-DNA binding sites prediction based on pre-trained protein language model and contrastive learning”的研究论文，提出了CLAPE模型用于预测蛋白质?DNA结合位点。CLAPE包含三个核心模块，序列嵌入模块是根据ProtBert的预训练语言模型生成蛋白质序列表征。主干提取模块通过MLP, CNN等模型提取深层的蛋白信息。损失函数模块包括解决类别不平衡的focal loss及对比损失。基于预训练模型来提取特征可以有效避免了繁琐的人工特征提取过程。结果显示，CLAPE-DB模型在两个基准数据集上的ROC曲线下面积值分别达到了0.871和0.881，表明与其他现有模型相比具有更优越的性能。CLAPE-DB同时展示了更好的泛化能力，并且特别适用于DNA结合位点预测任务。此外，田博学课题组在不同的蛋白质-配体结合位点数据集上训练了CLAPE，证明CLAPE是一个适用于结合位点预测的通用框架。

图4.CLAPE的模型框架

基于语言模型的P450分子对活性预测：

细胞色素P450酶（CYPs）在人体药物代谢中起着至关重要的作用，显著影响药物的药效及可利用度，因此在药物开发早期及时鉴定CYP-分子对的活性将极大地增加药物研发的成功率。鉴于现有的CYP-分子对活性预测模型均基于传统的机器学习，而且每个模型只对单个CYP酶有效，田博学课题组在Journal of Chemical Information and Modeling发表了可预测人类9个关键CYPs活性的深度学习模型DeepP450（CYP1A2、CYP2A6、CYP2B6、CYP2C8、CYP2C9、CYP2C19、CYP2D6、CYP2E1、CYP3A4）。

DeepP450通过蛋白质语言模型ESM-2和可表征分子结构特征的预训练模型Uni-Mol分别提取不同CYPs和分子的高维特征，利用交叉注意力和自注意力层进行特征融合并反向微调ESM-2和Uni-Mol，通过集成模型的方式实现了人体关键CYPs潜在底物的精准预测。该模型在测试集上的预测准确率高达92%，9种CYPs的底物/非底物预测AUROC值在0.89-0.98之间，优于其他当前可用模型的预测性能。值得注意的是，DeepP450仅使用单一模型即可对9个不同CYPs进行底物/非底物鉴别，并且在未知化合物和其他人类CYPs数据集上表现出一定的泛化能力。

图5. DeepP450模型架构图

DeepP450模型提供了一个高效可靠的CYP-分子对活性预测工具，有助于研发人员在药物开发早期有效识别和鉴定CYPs的活性底物，进而提升药物研发的成功率。此外，田博学团队还将进一步开发识别CYPs和底物之间潜在反应位点及终产物的预测工具，进一步助力经CYPs代谢的小分子药物设计和开发进程。

了解更多内容，请参考下方文章链接

https://elifesciences.org/articles/91512

https://academic.oup.com/bib/article/25/1/bbad488/7505238?

https://pubs.acs.org/doi/10.1021/acs.jcim.4c00115

Chromium X将单细胞研究提升至新台阶，欢迎深入了解10X Genomics单细胞多组学分析技术资料>>领取

广告安捷伦全自动毛细管蛋白电泳分析仪，点击预约新品体验！

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析！

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

热点排行

新闻专题