一种基于进化论的方法来预测CRISPR阵列的方向

《PLOS Computational Biology》:An evolutionary approach to predict the orientation of CRISPR arrays

【字体: 时间:2025年11月20日 来源:PLOS Computational Biology 3.6

编辑推荐:

  CRISPR-Cas系统通过极性插入新 spacer 适应环境,传统方法依赖重复序列、leader或PAM预测方向易冲突。本文提出CRISPR-evOr,基于多组CRISPR阵列的进化树分析,通过 SpacerPlacer重构双方向进化史并比较似然值,显著提升方向预测可靠性,尤其对II-C等罕见类型。

  CRISPR-Cas系统是细菌和古菌用来防御噬菌体和移动遗传元件的一种重要机制。该系统通过在CRISPR阵列中插入来自入侵者DNA的小片段,即所谓的“间隔序列”(spacers),从而实现适应性免疫。这些间隔序列被转化为crRNA(CRISPR RNA),与Cas蛋白复合物结合,用于识别并破坏特定的外来DNA序列。CRISPR阵列的插入方向对于理解其功能至关重要,因为这影响了间隔序列的处理、干扰机制以及对不同Cas类型的识别。

在现有研究中,许多工具已经被开发出来用于预测CRISPR阵列的方向。这些工具通常依赖于不同的特征,如重复序列(repeats)的排列、领头序列(leader sequence)的位置、Cas基因的转录方向或PAM(protospacer adjacent motif)序列的分布。然而,这些方法在某些情况下可能不够可靠,或者在不同工具之间存在分歧。例如,对于某些CRISPR阵列,Cas基因可能反转,或者没有足够接近的Cas基因,领头序列可能不存在,或者无法找到对应的PAM序列。此外,某些类型的CRISPR系统,如II-C型,表现出独特的插入行为,使得传统方法难以准确预测其方向。

为了解决这一问题,研究者提出了一种新的方法——CRISPR-evOr。该方法通过分析一组密切相关CRISPR阵列的进化历史,来预测间隔序列的插入方向。与传统的基于单个基因或序列特征的方法不同,CRISPR-evOr采用了一种整体的进化视角,通过比较两种可能的插入方向下的祖先重建结果,以确定最可能的插入方向。具体而言,CRISPR-evOr首先使用一个名为SpacerPlacer的工具对CRISPR阵列进行祖先重建,分别以正向和反向的序列顺序进行两次重建,然后通过比较两种重建的似然值来预测插入方向。

在实验中,CRISPR-evOr在CRISPRCasdb数据库中表现出了良好的性能,能够可靠预测28.3%的CRISPR阵列方向,而其他工具如CRISPRDirection和CRISPRstrand则无法准确预测这些方向。这一结果表明,CRISPR-evOr在处理那些传统方法难以确定方向的CRISPR阵列时具有独特的优势。此外,CRISPR-evOr还能够为某些罕见的CRISPR亚型提供可靠的预测,这些亚型由于缺乏足够的重复序列信息或领头序列信息,使得其他工具难以进行准确的判断。

值得注意的是,CRISPR-evOr不仅适用于具有明确插入方向的CRISPR系统,还能够处理那些插入方向存在争议或不确定的系统。例如,在某些情况下,正向和反向的祖先重建结果之间的似然值差异较小,导致无法得出明确的结论。此时,CRISPR-evOr会返回“未确定”(not determined),以避免做出错误的预测。然而,通过调整似然比的阈值,研究者可以提高预测的准确性。在实验中,设定一个保守的阈值c=5,使得在正向和反向重建之间,似然值的差异超过两个数量级,从而确保预测的可靠性。

CRISPR-evOr的优势在于其独立于Cas类型、领头序列的存在及其位置,以及转录方向。这种独立性使得它能够应用于更广泛的CRISPR系统,并在某些情况下纠正或验证现有工具的预测结果。例如,在II-C型系统中,CRISPRDirection和CRISPRstrand经常出现分歧,而CRISPR-evOr则能提供更准确的预测。此外,在一些系统中,如I-B型和II-A型,CRISPR-evOr的预测结果与CRISPRstrand高度一致,而与CRISPRDirection存在较大差异,这表明CRISPRDirection可能在这些系统中存在误判。

CRISPR-evOr的预测性能在模拟数据中也得到了验证。在基于简单进化模型的模拟数据中,CRISPR-evOr能够以100%的准确率预测插入方向,而在更复杂的现实数据中,其准确率也保持在较高水平,例如在使用原始树进行预测时,准确率达到97.8%。即使在基于 SpacerPlacer 估计的树进行预测时,准确率仍能达到95.5%。这表明,尽管现实数据中存在更多的复杂因素,如基因组的变异、环境压力和测序误差,CRISPR-evOr仍然能够提供可靠的预测。

然而,CRISPR-evOr的预测性能也受到数据多样性和进化事件数量的影响。在那些进化事件较少或重复序列高度对称的CRISPR阵列中,预测的准确性可能会降低。例如,对于某些具有极低多样性或高度对称性的CRISPR阵列,CRISPR-evOr可能无法做出可靠的预测。因此,研究者建议在使用该工具时,应结合具体情况调整阈值,并进行手动验证以确保预测的可靠性。

总体而言,CRISPR-evOr提供了一种基于进化历史的全新方法,能够更准确地预测CRISPR阵列的插入方向。这种方法不仅弥补了传统工具的不足,还为理解CRISPR系统的进化机制和生态功能提供了新的视角。随着更多CRISPR阵列数据的积累,尤其是长读长测序技术的广泛应用,CRISPR-evOr的预测能力有望进一步提高。此外,该方法还可以应用于其他类型的CRISPR系统,如III型系统,这些系统在间隔序列的插入方式上表现出独特的特征。因此,CRISPR-evOr的提出为CRISPR系统的研究提供了重要的工具,有助于更全面地理解其功能和进化机制。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号