基于语言模型的CRISPR/Cas9脱靶效应预测工具CCLMoff的开发与应用

【字体: 时间:2025年06月07日 来源:Communications Biology 5.2

编辑推荐:

  为解决CRISPR/Cas9系统因DNA/RNA错配导致的脱靶效应难题,研究人员开发了深度学习框架CCLMoff。该工具整合预训练RNA语言模型(RNA-FM)和13种全基因组测序数据,显著提升脱靶位点预测精度(AUROC=0.985),并展现跨数据集泛化能力(GUIDE-seq验证AUPRC=0.520)。研究揭示了PAM近端区域(16-20位点)的关键作用,为基因编辑治疗提供精准设计工具。

  

基因编辑技术CRISPR/Cas9被誉为生命科学的"基因剪刀",但其脱靶效应如同手术中的"误伤",可能引发癌症风险或治疗失败。传统检测方法如GUIDE-seq虽能发现脱靶位点,但成本高昂且无法指导sgRNA设计;现有计算模型如CRISPR-Net又受限于数据量和泛化能力。这种"精准医疗"与"脱靶风险"的矛盾,成为基因治疗发展的关键瓶颈。

中国的研究团队通过整合13种全基因组测序技术和预训练RNA语言模型,开发了深度学习工具CCLMoff。研究构建了包含418条sgRNA和82,699个验证脱靶位点的最大规模数据集,采用Transformer架构分析sgRNA与靶位点互作。关键方法包括:1)基于Cas-OFFinder生成负样本;2)RNA-FM模型初始化12层Transformer编码器;3)注意力机制解析PAM近端区域贡献;4)五折交叉验证评估性能。成果发表于《Communications Biology》。

Benchmark dataset construction
研究整合了GUIDE-seq、CIRCLE-seq等13种检测技术的21项研究数据,构建包含9,521,638阴性样本的基准数据集,首次涵盖19-21nt非标准长度sgRNA,解决现有数据库如CrisprSQL(仅144条sgRNA)的局限性。

Language model improve the off-target prediction
在CIRCLE-seq数据集上,CCLMoff的平衡准确率达0.998±0.001,显著优于CRISPR-Net(0.806)。引入表观遗传信息(CTCF、H3K4me3等)的CCLMoff-Epi未显著提升性能,证实RNA-FM已隐含基因组上下文信息。

Language model exhibits robust cross-dataset generalization ability
跨平台验证显示,在CIRCLE-seq训练后,GUIDE-seq测试的AUPRC达0.520,远超CRISPR-IP(0.337)。对比DNA预训练模型HyenaDNA(AUPRC=0.180),证实RNA特异性预训练对sgRNA-DNA互作建模的关键作用。

CCLMoff can accurately predict off-target sites
留一法验证中,DIG-seq数据集表现最佳(AUROC=0.985),而GUIDE-seq(AUPRC=0.810)提示现有模型可能存在技术特异性偏差,凸显CCLMoff的通用性优势。

CCLMoff achieved considerable performance on uncanonical length sgRNA
仅用20nt sgRNA训练的模型,对19/21nt非标准长度预测AUROC达0.8123,突破现有工具长度限制,为特殊靶点设计提供可能。

CCLMoff reveals the PAM-near region motif for off-target prediction
注意力图谱发现sgRNA的16-20位(对应靶位14-18位)权重最高,与已知"种子区域"理论一致,证实模型可解析生物学机制。

该研究通过语言模型与多组学数据融合,将脱靶预测从"序列比对"升级为"语义理解"阶段。CCLMoff的跨平台稳定性(如DISCOVER-seq+验证AUPRC=0.661)使其可服务于镰刀型贫血、杜氏肌营养不良等单基因病治疗设计。未来整合sgRNA二级结构(如发卡锁设计)和切割结果预测(如CROTON模型)后,有望形成从靶点设计到疗效评估的一站式平台。研究同时提出标准化数据集建设的紧迫性,为基因编辑安全评估树立新范式。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号