
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于语言模型的CRISPR/Cas9脱靶效应预测工具CCLMoff的开发与应用
【字体: 大 中 小 】 时间:2025年06月07日 来源:Communications Biology 5.2
编辑推荐:
为解决CRISPR/Cas9系统因DNA/RNA错配导致的脱靶效应难题,研究人员开发了深度学习框架CCLMoff。该工具整合预训练RNA语言模型(RNA-FM)和13种全基因组测序数据,显著提升脱靶位点预测精度(AUROC=0.985),并展现跨数据集泛化能力(GUIDE-seq验证AUPRC=0.520)。研究揭示了PAM近端区域(16-20位点)的关键作用,为基因编辑治疗提供精准设计工具。
基因编辑技术CRISPR/Cas9被誉为生命科学的"基因剪刀",但其脱靶效应如同手术中的"误伤",可能引发癌症风险或治疗失败。传统检测方法如GUIDE-seq虽能发现脱靶位点,但成本高昂且无法指导sgRNA设计;现有计算模型如CRISPR-Net又受限于数据量和泛化能力。这种"精准医疗"与"脱靶风险"的矛盾,成为基因治疗发展的关键瓶颈。
中国的研究团队通过整合13种全基因组测序技术和预训练RNA语言模型,开发了深度学习工具CCLMoff。研究构建了包含418条sgRNA和82,699个验证脱靶位点的最大规模数据集,采用Transformer架构分析sgRNA与靶位点互作。关键方法包括:1)基于Cas-OFFinder生成负样本;2)RNA-FM模型初始化12层Transformer编码器;3)注意力机制解析PAM近端区域贡献;4)五折交叉验证评估性能。成果发表于《Communications Biology》。
Benchmark dataset construction
研究整合了GUIDE-seq、CIRCLE-seq等13种检测技术的21项研究数据,构建包含9,521,638阴性样本的基准数据集,首次涵盖19-21nt非标准长度sgRNA,解决现有数据库如CrisprSQL(仅144条sgRNA)的局限性。
Language model improve the off-target prediction
在CIRCLE-seq数据集上,CCLMoff的平衡准确率达0.998±0.001,显著优于CRISPR-Net(0.806)。引入表观遗传信息(CTCF、H3K4me3等)的CCLMoff-Epi未显著提升性能,证实RNA-FM已隐含基因组上下文信息。
Language model exhibits robust cross-dataset generalization ability
跨平台验证显示,在CIRCLE-seq训练后,GUIDE-seq测试的AUPRC达0.520,远超CRISPR-IP(0.337)。对比DNA预训练模型HyenaDNA(AUPRC=0.180),证实RNA特异性预训练对sgRNA-DNA互作建模的关键作用。
CCLMoff can accurately predict off-target sites
留一法验证中,DIG-seq数据集表现最佳(AUROC=0.985),而GUIDE-seq(AUPRC=0.810)提示现有模型可能存在技术特异性偏差,凸显CCLMoff的通用性优势。
CCLMoff achieved considerable performance on uncanonical length sgRNA
仅用20nt sgRNA训练的模型,对19/21nt非标准长度预测AUROC达0.8123,突破现有工具长度限制,为特殊靶点设计提供可能。
CCLMoff reveals the PAM-near region motif for off-target prediction
注意力图谱发现sgRNA的16-20位(对应靶位14-18位)权重最高,与已知"种子区域"理论一致,证实模型可解析生物学机制。
该研究通过语言模型与多组学数据融合,将脱靶预测从"序列比对"升级为"语义理解"阶段。CCLMoff的跨平台稳定性(如DISCOVER-seq+验证AUPRC=0.661)使其可服务于镰刀型贫血、杜氏肌营养不良等单基因病治疗设计。未来整合sgRNA二级结构(如发卡锁设计)和切割结果预测(如CROTON模型)后,有望形成从靶点设计到疗效评估的一站式平台。研究同时提出标准化数据集建设的紧迫性,为基因编辑安全评估树立新范式。
生物通微信公众号
知名企业招聘