酶促反应计算预测方法综述:结构、网络与多组学整合策略的前沿进展

《Briefings in Bioinformatics》:Computational approaches to enzymatic reaction assignment: a review of methods, validations, and future directions

【字体: 时间:2025年12月01日 来源:Briefings in Bioinformatics 7.7

编辑推荐:

  本刊推荐:为解决酶功能注释不足与代谢反应知识缺失的问题,研究人员系统综述了计算酶反应分配方法,涵盖结构同源性、网络间隙填充及多组学关联分析等主题,指出深度学习与多模态整合将推动未知代谢功能的发现,对生物工程与药物研发具有重要意义。

  
随着高通量技术的飞速发展,科学家们发现了海量的蛋白质和代谢物,但我们对它们功能的理解却远远落后。例如,BRENDA数据库仅收录了约9万种有实验证据的酶,而预测具有酶功能的基因却超过1800万个,其中绝大多数功能未知。同时,人类代谢组数据库(HMDB)中检测到的代谢物已超过2.44万种,但在最全面的人类代谢模型Human1中,只有不到17%的代谢物与已知反应相关联。这种巨大的知识鸿沟严重限制了对生命过程的理解,也阻碍了在代谢工程、蛋白质工程和药物发现等领域的应用。
酶反应分配是蛋白质功能注释的一个特殊案例,其核心目标是预测蛋白质催化底物分子转化为产物的反应。与蛋白质结构预测领域取得的巨大成功(例如AlphaFold)相比,酶功能注释的进展相对缓慢,这在蛋白质结构预测关键评估(CASP)和功能注释关键评估(CAFA)的公开竞赛结果对比中尤为明显。造成这种差距的原因包括:酶功能注释的真实证据在信息内容和准确性上高度可变,已知酶功能的分布高度偏斜(例如,在SwissProt中,约62%的功能注释仅对应于5%的酶 commission(EC)编号),以及不断发现的新型酶反应。
为了应对这些挑战,计算酶反应分配方法应运而生。这些方法主要利用三类数据:蛋白质和代谢物的结构信息(序列、二维/三维结构)、系统水平的信息(如代谢网络)以及高通量实验数据(如代谢组学、转录组学、蛋白质组学)。其核心任务可以概括为一个优化问题:Fenzyme = f(Xenzyme, Ymolecule),即根据酶和分子的特征数据(Xenzyme 和 Ymolecule)来确定其酶功能(Fenzyme)。这些功能可以是分类任务(如分配EC编号或GO术语),也可以是回归任务(如预测催化常数kcat或米氏常数KM)。
主要技术方法
本研究综述的方法主要基于三类数据:结构基础方法利用蛋白质序列(如氨基酸序列)、分子结构(如SMILES字符串、分子指纹或图表示)及其数值化嵌入(例如通过蛋白质语言模型PLMs如ESM,或化学语言模型CLMs如ChemBERTa),通过相似性比较(如EC-BLAST、Tanimoto系数)或直接预测模型(如CLEAN、ESP、SPEPP)来关联酶与反应。网络基础方法将代谢系统表示为图(G=(V, E)),其中节点(V)为代谢物,边(E)为酶催化的反应,通过间隙填充算法(如SMILEY)满足特定表型(如生物量生产),或应用图神经网络(GNNs)及超图学习(如CHESHIRE、CLOSEgaps)从网络拓扑中预测缺失反应。多组学基础方法则利用代谢组、转录组等数据在不同样本间的丰度变化,通过相关性分析(如加权基因共表达网络分析WGCNA)、偏相关网络(如高斯图模型)或因果推断模型(如逆雅可比建模COVRECON)来推断代谢物-酶之间的直接催化关系。
结构基础的反应分配方法
结构基础的方法因其对实验数据要求较低而最为突出。其核心思想是酶的功能由其结构决定。
反应分配的结构同源性方法依赖于“结构相似则功能相似”的假设。对于蛋白质,常用BLASTp等序列比对工具。EC-BLAST则专门用于比较酶反应之间的相似性,其依据是底物和产物的分子结构、反应中心以及反应中的键变化。对于代谢物,则通过计算分子指纹(如扩展连通性指纹ECFP)或深度学习生成的分子嵌入之间的相似度(如Tanimoto系数或加权Jaccard指数)来推断功能。
组合方法(如BNICE.ch)通过组合已知的酶转化规则和底物,生成大量 plausible 的新反应,再通过BridgIT等方法根据反应结构相似性为其推荐可能的酶。这种方法已经成功预测了一些后来被实验验证的反应。
非相似性的直接预测方法利用机器学习模型直接建立结构特征与酶功能之间的关系。CLEAN模型通过对比学习从蛋白质序列中学习功能表示,能准确预测EC编号,甚至成功预测了孤儿卤化酶的功能。ESP模型结合了分子图神经网络和蛋白质序列嵌入(来自ESM-1b)来预测底物-酶配对。SPEPP进一步扩展,使用Transformer架构处理酶和底物-产物对的嵌入,以分类酶的通透性。ProSmith模型结合了PLM和CLM嵌入,在酶-底物分类和药物-配体亲和力预测方面表现出色。DRAGONFLY模型则利用2D分子图和3D蛋白质结构图预测药物-蛋白质相互作用。
大规模深度学习应用,特别是蛋白质语言模型(PLMs)和化学语言模型(CLMs),极大地推动了结构基础方法的发展。这些模型通过自监督学习在大量数据上训练,能够生成蕴含化学和物理性质的分子表示。多模态方法(如同时使用蛋白质和分子信息)展现出巨大潜力,例如具有对接感知注意力机制的模型可以显式建模酶-底物相互作用,EnzymeFlow模型甚至可以生成特定底物的催化口袋,用于新酶设计。
网络基础的反应分配方法
代谢反应在细胞内的系统背景下发生,网络基础的方法通过整合代谢网络的拓扑结构和功能信息来预测反应。
间隙填充是网络基础方法的经典策略。它通过比较代谢网络模型模拟结果(如通过通量平衡分析FBA)与实验表型数据(如生物量产生)的差异,来识别网络中的“间隙”,并提议添加最少的反应(通常来自其他物种的同源酶或进化上保守的反应)以使模拟与实验一致。这种方法已成功用于发现代谢物的新反应和已知酶的潜在新功能。
图学习方法,如图神经网络(GNNs),直接利用代谢网络的拓扑特征来区分正确和错误的酶反应注释,或预测代谢网络中缺失的反应。这类方法避免了间隙填充中手动选择目标的步骤,但可解释性相对较低。
超图学习能更好地表示一个反应中涉及多个代谢物和酶的情况。CHESHIRE和CLOSEgaps是最近提出的超图学习方法,它们在预测反应超图方面表现出色,并能通过通量分析验证预测网络恢复实验表型的能力。
多组学基础的反应分配方法
多组学方法利用基因表达、代谢物或蛋白质丰度在不同生物条件或样本中的模式来推断反应关系,其优势在于能反映特定细胞类型或生物体中的真实代谢活动。
共表达分析是基于这样的假设:功能相关的基因或酶在表达上具有相关性。通过计算未知基因与已知功能基因在转录组数据中的相关性,可以将最相关邻居的功能分配给未知基因。类似地,可以构建共表达网络并识别功能模块。将代谢组学与转录组学/蛋白质组学数据整合,可以推断代谢物-酶对之间的关系。然而,相关性可能反映间接关系,且受样本量和特性的影响大。
偏相关方法(如高斯图模型)试图区分直接(催化)和间接关系。逆雅可比建模(如COVRECON)则通过估计酶活性波动(从基因表达推断)对代谢网络中反应速率的影响,来推断代谢物和酶之间的因果关系。这些方法通常需要较多的样本量。
新兴的高通量技术,如化学蛋白质组学,能够同时大规模检测酶-代谢物相互作用,为多组学方法开辟了新前景。单细胞技术使得在细胞群体水平发现反应成为可能,例如METAFlux方法利用单细胞RNAseq数据中的基因表达簇来优化代谢网络并进行通量平衡分析。
基准与验证
可靠的基准数据集(如CARE、ReactZyme)和严谨的验证策略对于方法评估至关重要。为防止数据泄露和过拟合,需要在数据划分时考虑结构差异,例如对蛋白质通过序列/结构相似性阈值划分,对分子通过骨架划分或更严格的UMAP聚类、光谱划分。时间划分(用 cutoff 日期后的新发现数据测试模型)也是一种有效的验证策略。
对于计算预测的新反应,在进入生化实验验证前,可以通过分子模拟进行计算机验证。分子对接可以预测小分子配体与蛋白质的结合模式和强度,用于大规模筛选酶-底物对。分子动力学(MD)模拟可以研究酶-底物复合物随时间变化的动态行为。对于涉及电子转移和键变化的酶反应,需要更精确的量子力学(QM)模拟,或混合QM/MM方法(对反应中心用QM,系统其余部分用MM)。近年来,基于深度学习、训练用于预测蛋白质-配体相互作用姿态和能量的方法(如AlphaFold 3、RoseTTAFold All-Atom)发展迅速,但在处理新颖相互作用和避免无效化学姿态方面仍面临挑战。
主要挑战与未来方向
当前大多数方法侧重于预测酶或代谢物参与反应的可能性。更完整的反应分配需要量化酶-底物关系的强度(如亲和力、催化速率),但相关的准确实验数据稀缺。构建高质量的负样本(非相互作用的酶-底物对)数据集是一个公认的难题。此外,需要区分酶促反应与其他类型的蛋白质-小分子相互作用(如激活、抑制、运输)。功能注释数据库中存在错误注释,以及EC编号本身有时无法对应完全相同的催化机制,也给方法开发带来困难。
结论与展望
计算酶反应分配方法通过整合结构、网络和多组学数据,在预测代谢物和蛋白质的酶功能方面展现出巨大潜力。尽管面临数据偏差、验证复杂等挑战,这些方法已经推动了诸多新代谢反应和酶功能的发现,增进了对生命系统层次代谢的理解。随着实验技术的进步(如单细胞技术、化学蛋白质组学)、计算资源的提升以及深度学习在多模态整合方面的突破,未来酶反应分配的准确性和适用范围将进一步提升,从而在基础生物学研究、生物工程和药物研发等领域发挥更关键的作用。
这篇发表在《Briefings in Bioinformatics》上的综述系统梳理了该领域的现状、方法和挑战,为研究人员选择合适的工具和推动该领域的发展提供了重要的指导。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号