整合深度核糖体展示与深度学习解码蛋白质结合可塑性

《Communications Biology》:Decoding protein binding plasticity via integrated deep ribosome display and deep learning

【字体: 时间:2025年12月04日 来源:Communications Biology 5.1

编辑推荐:

  本研究针对蛋白质相互作用可塑性研究受限于序列空间巨大维度的问题,开发了整合深度核糖体展示(RD)与深度学习的平台。研究人员通过改造大肠杆菌裂解液去除所有翻译终止和核糖体拯救因子,构建了包含4780万独特肽段的Streptactin结合数据集,并训练深度学习模型实现高精度结合活性预测(Pearson's r=0.902),成功识别出包含经典 motif 的799个强结合序列和219个采用新颖结合模式的新序列,为人工蛋白质设计提供了通用性研究框架。

  
在生命科学的微观世界里,蛋白质如同精密的分子机器,通过与其他分子的特异性结合来执行各种生物学功能。这种结合能力并非总是严格专一的,许多蛋白质展现出令人惊讶的"结合可塑性"——它们能够适应性地与多种不同结构的配体结合。这种特性使得像钙调蛋白(calmodulin)、β-连环蛋白(β-catenin)和p53这样的关键蛋白能够参与复杂的细胞信号转导、代谢调控等核心生命过程。理解蛋白质的结合可塑性不仅有助于揭示生命活动的基本规律,更为药物开发、合成生物学和生物技术应用提供了无限可能。
然而,系统探索蛋白质结合可塑性面临巨大挑战。蛋白质序列空间具有天文数字般的维度——一个仅含12个氨基酸的短肽就有2012种可能序列,传统实验方法难以全面覆盖。虽然酵母双杂交(Y2H)、亲和纯化-质谱(AP-MS)和噬菌体展示等技术已被广泛应用于蛋白质相互作用(PPI)研究,但这些方法通常只能捕获有限数量的相互作用对,深度不足以为理解结合可塑性提供全面视角。
更令人遗憾的是,即使是最先进的核糖体展示(RD)技术,也因核糖体复合体在细胞裂解液中的不稳定性而受限。在天然条件下,细胞内的翻译终止因子和核糖体拯救因子会迅速分解展示复合体,使得大规模、定量化的结合数据采集变得异常困难。同时,传统方法依赖于静态结构模型或对序列-功能空间的稀疏采样,难以解析支撑结合可塑性的复杂上位性网络。
为了突破这些瓶颈,天津大学和武汉大学的研究团队在《Communications Biology》上发表了一项创新性研究,他们开发了一个整合深度实验筛选与深度学习的平台,成功解码了蛋白质结合可塑性。该研究通过工程化改造细胞游离系统,建立了稳定的深度核糖体展示平台,产生了包含4780万独特肽段的大规模结合数据集,并利用深度学习模型实现了高精度的结合活性预测,揭示了Streptactin结合口袋前所未有的结构适应性。
研究人员主要采用了几个关键技术方法:首先,通过基因组编辑构建了缺乏所有翻译终止因子和核糖体拯救因子的工程化大肠杆菌菌株BL21-TR9,制备了能够稳定核糖体展示复合体的细胞游离裂解液;其次,建立了深度核糖体展示筛选流程,通过对12个氨基酸长度的随机肽库进行五轮筛选,并结合新一代测序(NGS)技术跟踪筛选动态;第三,开发了结合循环神经网络(RNN)和多层感知机(MLP)的深度学习架构,基于序列上下文、富集动态和子序列丰度训练结合活性预测模型;最后,利用分子对接和结构分析验证预测结果。
核糖体展示在重编程细胞提取物中的优化
研究人员通过精确的基因组编辑,构建了两种工程化大肠杆菌菌株:BL21-T5(缺乏四种释放因子和ssrA)和BL21-TR9(额外缺乏四种核糖体拯救因子)。在S30裂解液制备过程中,外源添加的mf-Lon蛋白酶通过识别pdt3降解标签,选择性降解这些被标记的必需蛋白。Western blot分析证实I类释放因子RF1和RF2被完全去除,产生了既无翻译终止功能也无核糖体拯救机制的翻译活性裂解液。此外,研究人员通过过表达抑制性tRNA,实现了TAG终止密码子的高效解码(效率达97.73%),确保NNK突变库的完整蛋白合成。核糖体pull-down实验显示,与标准BL21裂解液相比,BL21-TR9菌株的70S核糖体复合体保留能力提高了28倍,显著增强了基因型-表型关联的稳定性。
深度核糖体展示产生大规模Streptactin结合肽段
研究团队设计了包含T7启动子、Myc标签、12氨基酸NNK突变区、GeneIII间隔序列和SecM停滞序列的线性DNA库。通过五轮深度RD筛选,获得了2.43亿条测序读数,经处理后保留2.22亿条高质量读数。初始库包含2615万条独特氨基酸序列,平均测序深度为1.30,证实了库的高多样性。筛选动态分析显示,轮次特异性独特序列比例从第一轮的33.7%降至第五轮的1.1%,表明功能性肽段的有效富集和库的逐步收敛。序列深度相关性分析表明,从第二轮开始,轮次间相关性显著增加(R4 vs R5,r=0.91),证明筛选过程具有良好的重现性。
深度学习模型表征Streptactin结合肽段
研究团队开发了结合RNN和MLP的深度学习框架,用于回归分析预测结合活性。模型将Onehot编码的输入序列通过RNN编码器提取特征,然后通过全连接网络进行活性预测。为解决长尾分布和采样偏差问题,研究人员引入了子序列多样性指标,并通过系统超参数优化确定最佳配置为7氨基酸子序列、第二轮数据和多样性标签。最终模型在训练集和测试集上分别达到Pearson's r=0.927和0.902的高精度。独立验证实验显示,基于7氨基酸子序列的模型预测与实验测量值显著相关(r=0.6835),而全长序列模型筛选的变体也表现出显著增强的结合活性。
解码Streptactin结合可塑性
通过对所有可能的7氨基酸序列(1.28×109)进行穷举预测,研究人员识别出1018个预测活性值高于标准Strep-tag的序列。通过t-SNE降维和聚类分析,发现了三个主要序列簇:"H-P"簇(包含经典HPQG motif)、"E-x-W-L"簇和"P-x-W-W-x-x-L"簇。Pull-down实验验证了代表性肽段(HPMGERS、SGLELWL、PSWWYSL)的结合能力,其中HPMGERS的表现优于标准Strep-tag。分子对接显示这些肽段通过不同的氢键和疏水相互作用网络与Streptactin结合,结合自由能(ΔG)分别为-9.054、-8.071和-6.225 kcal/mol,与实验测量结果一致。
这项研究通过整合工程化细胞游离系统、深度核糖体展示和深度学习,建立了一个通用性框架,用于系统探索蛋白质结合可塑性。与需要繁琐纯化步骤的PURE系统相比,本研究开发的工程化裂解液制备更简便,且具备模块化定制功能。深度学习模型有效压缩了高维序列空间,使原本难以处理的序列-功能关系变得可计算、可解释。
研究的局限性包括RNN架构可能不是最优选择,以及活动标签的轮次特异性限制了验证方式。未来工作可探索基于Transformer的模型,并收集小规模高精度测定数据进行验证。该平台特别适用于研究动态结合过程,如内在无序蛋白或变构位点,并通过数据驱动的设计加速人工蛋白质开发。
总之,这项研究不仅揭示了Streptactin结合口袋的惊人可塑性,更重要的是提供了一个强大工具包,将深度实验筛选与智能计算分析无缝衔接,为理解蛋白质相互作用的基本规律和设计新型功能蛋白开辟了新途径。这种整合方法有望在基础研究和生物技术应用中产生深远影响,特别是在药物发现、合成生物学和精准医疗领域。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号