RFdiffusion2:原子级酶活性位点支架设计的突破性生成模型
《Nature Methods》:Atom-level enzyme active site scaffolding using RFdiffusion2
【字体:
大
中
小
】
时间:2025年12月05日
来源:Nature Methods 32.1
编辑推荐:
本研究针对传统酶设计方法依赖预定义残基位置和反向构建骨架的局限性,开发了基于流匹配的深度生成模型RFdiffusion2。该技术能够直接从功能基团几何构型出发,无需指定残基顺序或进行反向旋转异构体采样,成功为41种不同催化机制的活性位点生成蛋白质支架。实验验证表明,针对三种不同催化反应设计的酶在测试不足96个序列时均获得活性候选物,实现了原子级生成建模从反应机理直接创建从头酶的重大突破。
在合成生物学和生物催化领域,从头设计具有特定催化功能的酶一直是科学家们追逐的圣杯。传统酶设计方法通常从理想化的催化功能基团排列出发,通过量子化学计算获得反应过渡态的理论酶模型(theozyme),然后尝试生成能够精确定位这些基团的蛋白质结构。然而,现有AI方法需要预定义残基位置,并依赖从侧链放置反向构建残基骨架的策略,这种设计思路严重限制了结构的灵活性。随着催化位点复杂度的增加,传统方法需要处理的旋转异构体和序列索引组合呈指数级增长,使得设计复杂活性位点酶类变得异常困难。
针对这一挑战,华盛顿大学David Baker团队与麻省理工学院研究人员在《Nature Methods》上发表了革命性研究成果。他们开发的RFdiffusion2模型,通过扩展RoseTTAFold扩散全原子(RFdiffusionAA)架构,实现了直接从原子级活性位点描述生成蛋白质支架的能力,无需预定义残基顺序或进行反向旋转异构体采样。
研究团队采用了几项关键技术方法:首先构建了包含生物分子结构、小分子复合物、蛋白质-金属复合物和共价修饰蛋白的扩展训练数据集;其次开发了基于流匹配(flow matching)的稳定训练目标,取代了传统的扩散目标;引入随机中心化策略解决支架与基序相对偏移的确定问题;利用原子级可及表面积(RASA)条件控制配体埋藏深度。模型在24块A100 GPU上训练17天,建立了包含41个活性位点的原子级酶基序支架(AME)基准测试集。
原子级基序条件化技术的突破使RFdiffusion2能够处理非索引原子基序,这是与传统方法的核心区别。传统 motif-scaffolding 方法将基序表示为需要预设序列索引的"骨架框架",而RFdiffusion2通过创建包含不同分辨率级别的扩展表示,允许网络在训练过程中学习建模侧链构象分布。当提供某些侧链原子坐标(原子基序)时,网络学会建模包含此类原子亚结构的蛋白质分布。更重要的是,通过创建"非索引残基"并移除其索引特征,模型能够在不指定基序序列索引的情况下进行条件化生成。
AME基准测试结果验证了RFdiffusion2的卓越性能。在涵盖EC29类1-5的41个活性位点测试中,RFdiffusion2成功为所有案例生成支架,而先前方法仅解决16/41个案例。研究团队使用LigandMPNN为每个结构分配八个序列,并通过Chai-1(AlphaFold3的开源实现)进行结构预测验证。成功标准要求催化残基所有重原子在至少一个序列中的均方根偏差<1.5?,且设计与配体无冲突。
为解析原子基序旋转异构体和序列索引的相对贡献,研究团队比较了三种策略:朴素反向旋转异构体采样(RFdiffusion方法)、RFdiffusion2推断和使用天然结构中的旋转异构体。结果显示,允许RFdiffusion2同时推断旋转异构体和索引的策略表现最佳,甚至优于使用天然旋转异构体和序列索引的参考案例。这表明深度学习方法解析旋转异构体和序列索引附加自由度比固定特定值或预枚举更有效。
体外实验验证了模型从theozyme生成功能性酶的能力。针对逆醛醇反应,研究团队从进化逆醛醇酶晶体结构(PDB 5AN7)构建最小theozyme,生成设计并表达96个变体,发现四个具有可检测活性的变体。最优设计催化逆醛醇反应的kcat/KM达到6.34±0.92 M-1s-1。
在酯酶设计中,研究选择了半胱氨酸水解酶theozyme,包含Cys-His-Asn催化三联体和螺旋偶极稳定的氧阴离子空穴。从木瓜半胱氨酸水解酶(PDB 1PPN)提取原子相对位置,在测试的48个设计中,最优设计表现出多转换活性,酰化步骤的kcat/KM为248±34 M-1s-1。
金属水解酶设计案例展示了从纯理论计算出发创建功能性酶的能力。研究团队使用密度泛函理论(DFT)寻找过渡态几何结构,模拟Zn(II)金属、金属配位基团(咪唑)、选定反应物和氢氧根离子。针对4MU-丁酸酯和4MU-苯乙酸酯两种底物,分别获得96个设计,并鉴定出多个功能性酶。最优4MU-丁酸酯酶的kcat/KM为77±10 M-1s-1,而最优4MU-苯乙酸酯酶达到16,000±2,000 M-1s-1。在包含通用碱基的第二组96个设计中,最佳酶的kcat/KM高达53,000±5,000 M-1s-1。
研究结论表明,RFdiffusion2在硅基准测试中优于现有技术,消除了先前骨架基序支架和支架库方法所需的专家直觉,能够设计具有显著实验证实催化活性的酶。该技术实现了直接从原子级描述的理想活性位点进行支架设计,无需预设序列索引或生成侧链旋转异构体。AME基准测试的成功表明RFdiffusion2适用于设计跨越更多反应的酶,且成功率高于现有技术。
尽管RFdiffusion2在四种反应中成功获得活性酶,但设计的酶活性仍低于天然酶。未来改进方向包括扩展theozyme定义以包含更多催化必要相互作用,整合AlphaFold3等新型神经网络架构模块,以及将AME基准扩展到测量多过渡态酶的成功率。随着更多DFT计算的theozyme得到验证,预计在不久的将来能够对非PDB基序进行基准测试。
RFdiffusion2的推出标志着蛋白质设计领域进入原子级精度建模的新时代,为小分子结合和酶设计等需要原子分辨率建模的蛋白质设计问题提供了强大工具。该模型的开源发布将推动机器学习社区探索原子分辨率蛋白质设计的新建模方法,加速生物催化剂在工业、医疗和环境修复等领域的应用进程。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号