基于自注意力机制驱动的稀疏卷积网络预测蛋白质热稳定性趋势

《Computational and Theoretical Chemistry》:Prediction of protein thermostability trends based on the self-attention mechanism driven sparse convolutional network

【字体: 时间:2025年10月03日 来源:Computational and Theoretical Chemistry 2.8

编辑推荐:

  人工智能辅助的蛋白质热稳定性预测可显著减少突变筛选工作量,提升蛋白工程效率。本文提出基于自注意力机制的稀疏卷积网络模型SCSAddG,整合蛋白质序列、突变关系和理化性质进行编码,在S2648数据集上实现预测准确率0.868,优于传统CNN和Rosetta软件12%。实验验证表明该模型在转谷氨酰胺酶数据集上达到1.000的精确度,与湿实验结果一致,5折交叉验证显示模型泛化能力强。

  
徐佩|钟凯|葛宏华|宋小萍|王伟华
安徽大学物理科学与信息技术学院,合肥,230601,中国

摘要

人工智能(AI)辅助的蛋白质热稳定性预测可以显著减轻突变筛选的负担,从而提高蛋白质工程的效率。为了进一步提高预测准确性并缩短新蛋白质的开发周期,我们整合了蛋白质序列、突变关系和理化性质进行编码,引入了一种由自注意力机制驱动的创新稀疏卷积网络,命名为SCSAddG。实验结果表明,在S2648通用数据集中,SCSAddG的预测准确率为0.868,精确度为0.710,召回率为0.606,F1分数为0.653,接收者操作特征曲线下面积(AUROC)为0.825。与传统卷积神经网络(CNN)相比,SCSAddG的预测准确性略高,在准确性方面比Rosetta生物信息学模拟软件高出12%。此外,在实验性转谷氨酰胺酶数据集中,SCSAddG的预测准确性明显优于CNN(0.744 vs 0.667),精确度达到1.000。湿实验室实验的结果与模型预测一致。在5折交叉验证中,SCSAddG模型在多个评估指标上均优于CNN,展示了其卓越的预测性能和可靠的可靠性。这些结果表明,SCSAddG能够有效评估蛋白质热稳定性的趋势,并作为指导蛋白质热稳定性工程的宝贵工具。

引言

蛋白质,特别是作为催化分子的酶(Cui等人,2022年),在许多生物功能中起着关键作用(Ding等人,2017年),并广泛应用于生物医学(Panes-Fernandez等人,2023年)、食品工业(Gharibzahedi等人,2019年)、组织工程(Panes-Fernandez等人,2023年)、有机化学和废水处理(Aloulou等人,2018年,Patel等人,2019年)。在某些特定应用中,如靶向蛋白质交联和同源抗体偶联疗法的开发,生产过程中的热塑性加工挤出以及热稳定微囊化固定酶的使用有助于在较高温度下进行交联反应(Dennler等人,2014年)。因此,具有更高热稳定性的突变蛋白不仅有望应用于现有程序,还能扩展新的应用范围。
目前,提高蛋白质热稳定性的主要方法包括定向进化和理性设计,这两种方法都高度依赖于高通量筛选实验,这不仅增加了实验工作量,还可能导致在筛选过程中遗漏一些具有优异特性的突变体(Chan等人,2023年,Bell等人,2022年,Lovelock等人,2022年)。因此,筛选能力是酶分子修饰中的一个重要技术瓶颈,严重限制了有利突变体的识别,并影响了酶定向进化的效率和效果(Qu等人,2020年,Liu等人,2019年)。人工智能(AI)技术的出现推动了AI辅助蛋白质热稳定性预测领域的显著进展。研究人员开发了多种方法和模型来预测蛋白质的热稳定性,包括高斯过程回归(GP)、支持向量机(SVM)、决策树和人工神经网络(ANN)(Deringer等人,2021年,Noble,2006年,De Ville,2013年,Krogh,2008年)。其中,SVM由于其出色的性能而成为主流方法之一。这些研究最终形成了几种预测工具,包括I-Mutant 2.0、MUpro、iPTREE-STAB、PoPMuSiC-2.0和BayeStab(Capriotti等人,2005年,Cheng等人,2006年,Huang等人,2007年,Dehouck等人,2009年,Wang等人,2022年)。然而,基于机器学习的预测模型通常严重依赖于人工设计的特征,这些特征可能受到预定义值的限制,从而可能忽略数据集中未明确编码的潜在信息[18]。尽管深度学习方法克服了对人工特征工程的依赖,但其复杂的神经网络架构需要大量的参数训练。这不仅需要大量的计算资源,还显著增加了模型开发和训练的时间成本。此外,对于小规模数据集,过于复杂的模型可能导致过拟合。尽管已经训练了许多新兴模型来表征不同的蛋白质,但仍然相对较少的工具能够准确预测蛋白质热稳定性的趋势,并在实际应用中得到广泛认可,例如FoldX、Rosetta-ddG和PoPMuSiC(Delgado等人,2019年,Leman等人,2020年,Dehouck等人,2011年)。因此,构建一个具有高预测性能、快速训练和推理能力以及强大泛化能力的蛋白质热稳定性预测模型至关重要。
本文基于对蛋白质热稳定性决定因素的深入分析以及突变的影响,结合了氨基酸的理化性质来编码蛋白质,并创新性地提出了一种由自注意力机制驱动的稀疏卷积网络模型SCSAddG。该模型旨在预测蛋白质热稳定性的趋势,为蛋白质热稳定性工程提供理论指导,并有效减少突变筛选实验的规模。

部分摘录

蛋白质表示

影响蛋白质热稳定性的主要因素包括蛋白质的序列信息和结构信息,以及构成蛋白质的氨基酸的理化性质。蛋白质的结构由其序列决定,但MUPRO(Cheng等人,2006年)的研究表明,仅使用序列数据就可以实现与基于结构数据相当的预测准确性。鉴于蛋白质序列信息更容易获得

数据集

S2648数据集(Dehouck等人,2011年)来源于ProTherm(Nikam等人,2021年)数据库,包含2,648个单点突变的ΔΔG数据,涉及131种蛋白质。该数据集已被广泛用作之前研究中ΔΔG预测的训练集,并被认为是该领域最著名的数据集之一(Cheng等人,2006年,?zen等人,2009年,Huang等人,2006年,Li等人,2023年)。数据集中的pH值范围为2到11,温度范围为0到

结论

本文创新性地提出了一种由自注意力机制驱动的稀疏卷积网络模型SCSAddG,并将其应用于蛋白质热稳定性趋势的预测。该模型通过使用灵活的卷积核和自注意力机制有效捕捉了蛋白质序列中的长距离依赖性,展示了出色的泛化能力。在通用蛋白质热稳定性数据集S2648上,SCSAddG的预测准确率为

CRediT作者贡献声明

徐佩:撰写 – 审稿与编辑,撰写 – 原始草稿,可视化,软件,方法论,研究,形式分析,数据管理。钟凯:撰写 – 审稿与编辑,项目管理。葛宏华:撰写 – 审稿与编辑。宋小萍:撰写 – 审稿与编辑,验证,监督,项目管理,研究,数据管理,概念化。王伟华:撰写 – 审稿与编辑,监督,资源获取。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

本工作部分得到了中国国家磁约束聚变科学项目(项目编号:2024YFE03040004)和国家自然科学基金(项目编号:62303015)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号