基于大语言模型的CRISPR-Cas12a亚型发现:解锁新型基因编辑工具与分子诊断潜力

【字体: 时间:2025年08月25日 来源:Nature Communications 15.7

编辑推荐:

  本研究针对传统CRISPR-Cas系统挖掘方法的局限性,创新性地采用进化尺度语言模型(ESM)开发了AIL-Scan策略,成功鉴定了7种未记录的Cas12a亚型。通过整合机器学习与结构生物学技术,揭示了这些亚型独特的PAM识别特性和核酸酶活性,首次实现了无需传统PAM序列的KRAS致癌突变特异性检测,为精准医疗提供了新型分子工具。

  

在生命科学领域,CRISPR-Cas系统正引发一场技术革命。这种原核生物的适应性免疫机制,特别是II类系统中的Cas12a蛋白,因其独特的"顺式"和"反式"DNA切割能力,已成为基因编辑和分子诊断的核心工具。然而,传统基于序列比对的挖掘方法存在明显局限——数百万计存在于宏基因组中的Cas蛋白因序列差异大而难以识别,且现有Cas12a受限于严格的PAM序列要求,无法满足临床检测的多样化需求。

为突破这些技术瓶颈,来自浙江实验室和上海交通大学医学院的研究团队在《Nature Communications》发表创新性研究。他们独辟蹊径地采用自然语言处理技术,将蛋白质序列视为"生物语言",利用进化尺度语言模型(ESM)捕捉超越序列相似性的深层特征。这种AI驱动的策略不仅重新定义了CRISPR-Cas系统的发现范式,更解锁了一系列具有独特功能的Cas12a新亚型。

研究团队首先构建了包含76,567个非冗余Cas蛋白的训练数据集,通过微调ESM-2模型(最高达150亿参数),开发出AIL-Scan分类器。该模型对Cas蛋白的识别准确率达98.22%,尤其在小蛋白预测方面显著优于传统HMM方法。值得注意的是,研究者创新性地结合语言模型嵌入与降维技术,仅用69个标记样本就建立了Cas12a反式切割活性预测模型,准确率高达92.3%,成功预测了ArCas12a_1等新型核酸酶的活性。

通过对宏基因组数据的系统挖掘,研究揭示了CRISPR-Cas12a系统的惊人多样性:

Cas12a亚型的发现与特征

研究鉴定了8种Cas12a亚型,其CRISPR基因座呈现独特的组织结构。进化分析显示,94.6%的新型Cas12a来源于肠道微生物,且部分亚型完全缺失Cas1-Cas2-Cas4整合酶系统。结构预测表明,不同亚型的Cas12a呈现显著的三维构象差异,这与其功能多样性直接相关。

整合酶的结构多样性

AlphaFold2预测揭示了Cas1、Cas2和Cas4整合酶各存在8种结构亚型。其中Cas1的C端结构域(CTD)表现出显著的可塑性,而Cas2的N端螺旋变异可能影响DNA结合特性。这些发现拓展了对CRISPR免疫记忆形成机制的理解。

新型Cas12a的生化特性

实验验证显示,AmCas12a等新型核酸酶具有独特的温度依赖性和金属离子偏好性——Mn2+能特异性激活其反式切割活性。PAM偏好性分析发现,AmCas12a可识别更广泛的PAM序列,这突破了传统TTTV序列的限制。

AmCas12a-crRNA复合物结构

2.9?分辨率的冷冻电镜结构首次捕获了crRNA间隔区形成额外茎环的特殊构象。这种独特折叠使得AmCas12a的WED结构域(而非典型的REC1结构域)主导了crRNA相互作用,揭示了新型Cas12a的构象可塑性。

分子诊断应用突破

利用AmCas12a的宽谱PAM识别特性,研究团队成功实现了KRAS c.34G>T(G12C)突变的特异性检测。该系统灵敏度达10个拷贝,可识别野生型背景中0.1%的突变等位基因,显著优于桑格测序法。

这项研究的意义远超预期。在理论上,它证实了语言模型能够捕捉蛋白质序列中隐含的进化规则和功能特征,为蛋白质发现提供了新范式。在技术上,发现的Cas12a新亚型不仅丰富了基因编辑工具箱,其独特的PAM兼容性更解决了分子诊断中的关键瓶颈。特别值得关注的是,部分缺失整合酶的Cas12a亚型仍保持完整切割活性,这对理解CRISPR-Cas系统的进化弹性提供了新视角。

研究也存在若干值得深入的方向:新型Cas12a在真核细胞中的编辑效率优化、整合酶缺失系统的免疫记忆获取机制、以及语言模型注意力机制与蛋白质功能域的相关性等。这些发现为合成生物学和精准医疗开辟了新路径,彰显了人工智能与实验生物学交叉融合的巨大潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号