编辑推荐:
在蛋白质应用中,提升其高温稳定性是一大挑战。研究人员开展 “Neural Optimization for Melting-temperature Enabled by Leveraging Translation(NOMELT)” 研究,设计出能提升热稳定性的蛋白变体,且该模型有零样本预测能力,为设计高温蛋白提供新方法。
在现代生物科技领域,蛋白质广泛应用于医疗、食品、材料等多个行业。比如在药物研发中,蛋白质类药物能精准作用于靶点,治疗多种疑难病症;在食品加工里,它可以改善食品的质地和口感。然而,蛋白质的高温稳定性却成了阻碍其进一步发挥效能的 “拦路虎”。不同蛋白质的热稳定性差异极大,受到自身结构、进化历史等多种复杂因素影响,目前还没有通用规则能预测和提升其热稳定性。这就好比在建造一座桥梁时,没有统一的蓝图,每一块 “蛋白质积木” 都需要单独设计和搭建,这让科研人员在提升蛋白质高温稳定性的道路上举步维艰。
为了解决这一难题,来自美国华盛顿大学(University of Washington)、圣克拉拉大学(Santa Clara University)等机构的研究人员展开了深入研究。他们聚焦于利用神经网络技术设计和筛选高温稳定蛋白质,最终取得了令人瞩目的成果。相关研究发表在《Scientific Reports》上,为蛋白质工程领域开辟了新的方向。
研究人员采用的主要关键技术方法包括:一是构建并筛选包含 460 万对中温与高温同源蛋白质的数据集(learn2thermDB),为模型训练提供丰富素材;二是基于预训练的 ProtT5 基础蛋白质语言模型,构建编码器 - 解码器式的 NOMELT 神经网络模型,并对其进行微调;三是运用多种评估手段,如分子动力学模拟、圆二色谱(CD)技术、mAF - min 方法等,从不同角度评估蛋白质的稳定性和结构变化。
嗜热序列可从嗜温同源物中重建
研究人员利用 NOMELT 模型,以嗜温蛋白序列为输入,构建嗜热同源物。通过对测试集的评估发现,模型生成序列与真实嗜热序列在长度上差异较小,转录错误率为 47%,序列一致性平均为 43%。在结构方面,模型能正确转录目标蛋白的二级结构,生成序列与真实结构在 3D 对齐上也较为接近。这表明 NOMELT 模型在从嗜温蛋白重建嗜热序列方面具有一定的能力。
模型捕获已知嗜热蛋白属性
研究发现,模型生成序列的氨基酸分布与已知嗜热蛋白的氨基酸使用偏好相似,例如缬氨酸(Valine)常被异亮氨酸(Isoleucine)替代。同时,模型在预测二硫键形成方面表现出色,更倾向于在能形成二硫键的位置放置半胱氨酸(Cysteine)。此外,通过 mAF - min 方法评估,模型生成的序列与真实嗜热同源物一样,在高温下具有更高的稳定性。这说明模型能够学习和捕获嗜热蛋白的关键属性。
案例研究 1:使用 NOMELT 设计热稳定序列变体
以果蝇 Engrailed Homeodomain(EnHD)蛋白为例,NOMELT 模型为其设计了包含 14 个突变(包括插入和缺失)的变体。分子动力学模拟和圆二色谱实验表明,该变体的热稳定性显著提升,其熔点温度(Tm)比野生型 EnHD 提高了 15.5 K。这一案例有力地证明了 NOMELT 模型在实际蛋白质工程中的应用潜力。
案例研究 2:NOMELT 作为嗜热性的零样本估计器
NOMELT 模型可通过输出标记似然来估计目标突变或变体的 “嗜热性”。在对 LovD 和 LipA 等蛋白质变体的研究中,模型预测结果与实验测得的熔化温度具有一定相关性。例如,对 LovD 变体的预测相关性极高,而对 LipA 变体虽能定性排序部分高温变体,但对野生型的估计存在偏差。此外,在对 LipA 的深度突变扫描以及对 FireProtDB 中众多蛋白质突变体的研究中,NOMELT 模型也展现出了一定的零样本预测能力,在不依赖大量同源数据的情况下,能对蛋白质变体的高温稳定性进行有效评估。
在结论与讨论部分,研究人员通过一系列实验和分析,验证了 NOMELT 模型在设计高温稳定蛋白质方面的有效性。该模型不仅能从嗜温蛋白序列重建嗜热序列,还能捕获嗜热蛋白的关键属性,并且在零样本预测蛋白质变体的高温稳定性方面表现出色。这一研究成果为蛋白质工程提供了一种全新的、高效的设计方法,有助于加速开发在高温环境下稳定且功能良好的蛋白质,推动其在工业生产、生物制药等领域的广泛应用,具有重要的理论和实践意义。