基于语言模型的CRISPR/Cas9脱靶效应预测工具CCLMoff的开发与应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月07日 来源：Communications Biology 5.2

编辑推荐：

　　为解决CRISPR/Cas9系统因DNA/RNA错配导致的脱靶效应难题，研究人员开发了深度学习框架CCLMoff。该工具整合预训练RNA语言模型（RNA-FM）和13种全基因组测序数据，显著提升脱靶位点预测精度（AUROC=0.985），并展现跨数据集泛化能力（GUIDE-seq验证AUPRC=0.520）。研究揭示了PAM近端区域（16-20位点）的关键作用，为基因编辑治疗提供精准设计工具。

基因编辑技术CRISPR/Cas9被誉为生命科学的"基因剪刀"，但其脱靶效应如同手术中的"误伤"，可能引发癌症风险或治疗失败。传统检测方法如GUIDE-seq虽能发现脱靶位点，但成本高昂且无法指导sgRNA设计；现有计算模型如CRISPR-Net又受限于数据量和泛化能力。这种"精准医疗"与"脱靶风险"的矛盾，成为基因治疗发展的关键瓶颈。

中国的研究团队通过整合13种全基因组测序技术和预训练RNA语言模型，开发了深度学习工具CCLMoff。研究构建了包含418条sgRNA和82,699个验证脱靶位点的最大规模数据集，采用Transformer架构分析sgRNA与靶位点互作。关键方法包括：1）基于Cas-OFFinder生成负样本；2）RNA-FM模型初始化12层Transformer编码器；3）注意力机制解析PAM近端区域贡献；4）五折交叉验证评估性能。成果发表于《Communications Biology》。

Benchmark dataset construction
研究整合了GUIDE-seq、CIRCLE-seq等13种检测技术的21项研究数据，构建包含9,521,638阴性样本的基准数据集，首次涵盖19-21nt非标准长度sgRNA，解决现有数据库如CrisprSQL（仅144条sgRNA）的局限性。

Language model improve the off-target prediction
在CIRCLE-seq数据集上，CCLMoff的平衡准确率达0.998±0.001，显著优于CRISPR-Net（0.806）。引入表观遗传信息（CTCF、H3K4me3等）的CCLMoff-Epi未显著提升性能，证实RNA-FM已隐含基因组上下文信息。

Language model exhibits robust cross-dataset generalization ability
跨平台验证显示，在CIRCLE-seq训练后，GUIDE-seq测试的AUPRC达0.520，远超CRISPR-IP（0.337）。对比DNA预训练模型HyenaDNA（AUPRC=0.180），证实RNA特异性预训练对sgRNA-DNA互作建模的关键作用。

CCLMoff can accurately predict off-target sites
留一法验证中，DIG-seq数据集表现最佳（AUROC=0.985），而GUIDE-seq（AUPRC=0.810）提示现有模型可能存在技术特异性偏差，凸显CCLMoff的通用性优势。

CCLMoff achieved considerable performance on uncanonical length sgRNA
仅用20nt sgRNA训练的模型，对19/21nt非标准长度预测AUROC达0.8123，突破现有工具长度限制，为特殊靶点设计提供可能。

CCLMoff reveals the PAM-near region motif for off-target prediction
注意力图谱发现sgRNA的16-20位（对应靶位14-18位）权重最高，与已知"种子区域"理论一致，证实模型可解析生物学机制。

该研究通过语言模型与多组学数据融合，将脱靶预测从"序列比对"升级为"语义理解"阶段。CCLMoff的跨平台稳定性（如DISCOVER-seq+验证AUPRC=0.661）使其可服务于镰刀型贫血、杜氏肌营养不良等单基因病治疗设计。未来整合sgRNA二级结构（如发卡锁设计）和切割结果预测（如CROTON模型）后，有望形成从靶点设计到疗效评估的一站式平台。研究同时提出标准化数据集建设的紧迫性，为基因编辑安全评估树立新范式。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号