基于深度集成学习与不确定性量化的CRISPR引导RNA优化选择策略

【字体: 时间:2025年07月14日 来源:Biology Methods and Protocols 2.5

编辑推荐:

  本研究针对CRISPR-Cas9系统中引导RNA(gRNA)设计效率预测的可靠性问题,提出了一种结合深度集成学习和不确定性量化的创新方法。通过构建25个深度学习模型组成的集成系统,首次实现了对gRNA效率预测的贝塔分布参数化建模,开发出同时考虑预测分数和不确定性的筛选策略。该方法在测试集上达到90%以上的精准度,可为93%的小鼠基因筛选高效gRNA,为精准基因组编辑提供了更可靠的工具。

  

基因组编辑技术CRISPR-Cas9已成为生命科学领域的革命性工具,但其核心组件引导RNA(gRNA)的设计仍面临重大挑战。尽管已有数十种预测工具,不同算法筛选结果的重叠率不足30%,且普遍存在"黑箱"预测的信任危机。更关键的是,现有方法均未考虑预测结果的不确定性,导致实验验证时经常出现预期外的高失败率。

针对这一瓶颈,澳大利亚昆士兰科技大学(QUT)和UNSW悉尼分校的研究团队在《Biology Methods & Protocols》发表创新成果。研究人员通过改造现有CRISPRon深度学习模型,构建了包含25个模型的深度集成系统,首次实现同时捕获数据固有变异(aleatoric uncertainty)和模型不确定性(epistemic uncertainty)。该模型将输出改为贝塔分布参数(α0, α1),通过模拟采样生成包含U98(99%-1%分位数差)和IQR(四分位距)的置信区间,开发出基于不确定性的gRNA筛选策略。

关键技术包括:1)整合4个实验数据集共81,195条gRNA序列;2)采用30bp序列(4+20+3+3)的一热编码和熔解温度作为特征;3)通过Bowtie2比对和SAMtools处理扩展序列;4)构建25个初始化不同的深度学习模型组成集成系统;5)定义U98和IQR量化预测不确定性。

研究结果显示:

  1. 评分性能:集成模型的Spearman相关系数达0.842,显著优于单模型(0.809)。绝对预测误差与IQR呈正相关,证实不确定性量化的有效性。

  2. 引导选择:当设置效率阈值τs=0.7且IQR阈值τq=30%时,系统精准度达90.91%,召回率55.17%。极端配置(如τs=0.95, τq=5%)可实现100%精准度但召回率仅0.02%。

  3. 跨数据集验证:在Wang数据集(基于log2 fold change)中,最优配置精准度达100%;在Doench数据集上达62.5%,均优于Crackling等现有工具。

  4. 全基因组应用:τs=0.7, τq=30%配置可为93.67%的小鼠基因找到至少1条高效gRNA,81.16%的基因找到3条以上,支持多靶向策略。

该研究突破性地将不确定性量化引入gRNA设计领域,其创新性体现在:1)通过Beta分布建模捕捉数据固有变异;2)利用深度集成近似贝叶斯推断,解决深度学习模型不确定性难题;3)开发出可解释的U98/IQR筛选标准。实验验证表明,该方法可显著降低CRISPR实验的试错成本,为构建更可靠的基因组编辑平台奠定基础。未来通过整合off-target评估模块,有望形成端到端的gRNA设计解决方案。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号