编辑推荐:
在基因组编辑研究中,传统追踪插入和缺失(TIDE)分析检测大缺失(>50bp)能力有限且存在不确定性。研究人员开发了 PtWAVE 软件,它能检测高达 200bp 的 indel,准确性和敏感性优于现有工具,可加速相关基因组编辑应用。
在基因编辑的奇妙世界里,科学家们如同手持精密工具的工匠,试图精准地修改生物的遗传密码,为攻克疾病、改良物种等带来新的希望。基因组编辑技术利用可编程核酸酶,如锌指核酸酶(ZFNs)、转录激活样效应物核酸酶(TALENs)和规律成簇间隔短回文重复相关蛋白 9(CRISPR-Cas9),在目标基因组 DNA 上诱导位点特异性双链断裂(DSBs) 。这些断裂会触发细胞内的 DNA 修复途径,进而产生插入、缺失(Indels)和碱基替换等突变,实现对基因的精准编辑。
在这个过程中,准确分析基因编辑产生的 Indels 至关重要。早期,研究人员采用将包含目标序列的扩增子片段克隆到克隆载体,再通过细菌转化扩增,最后用桑格测序(Sanger sequencing)进行基因分型的方法。但这种方法操作繁琐,难以实现高通量分析。后来,靶向深度测序技术出现,虽然能读取大量序列,但成本高昂,且文库制备过程易引入 PCR 偏差和嵌合读数,影响基因分型结果的准确性。
在这样的背景下,TIDE 分析应运而生,它能通过计算反卷积桑格测序数据,快速评估靶向诱变效率,成为基因组编辑基因分型的常用方法。然而,TIDE 和类似工具(如 Inference of CRISPR Edits,ICE)存在明显局限,它们检测大于 50bp 的大缺失时面临挑战,因为其预定义的突变范围较短。尽管 Deconvolution of Complex DNA Repair(DECODR)工具改进了算法,扩展了检测范围,但又带来了信号噪声和模型不确定性的问题。
为了解决这些难题,广岛大学(Hiroshima University)和 PtBio Inc. 的研究人员展开了深入研究。他们开发了一种名为 Progressive-type Wide-range Analysis of Varied Edits(PtWAVE)的新型软件,旨在更精准、高效地检测基因组编辑中的大缺失。该研究成果发表在《BMC Bioinformatics》杂志上,为基因组编辑领域带来了新的曙光。
研究人员在开发 PtWAVE 软件时,运用了多种关键技术方法。首先,软件基于 Python v3.8.5 开发,利用多种模块进行数据处理。它需要编辑和未编辑样本的测序追踪文件(.ab1)、原间隔序列和 PAM 序列等作为输入数据。在算法方面,通过一系列步骤确定比对窗口和分解窗口,生成估计突变序列模式(EMSPs) 。同时,提供了多种可变选择模式(“all”“random”“backstep”)和拟合算法(非负线性建模(NNLS)、非负 LASSO 回归(LASSO 模型)),用户可根据需求选择,以优化分析结果。
研究结果
- 图形用户界面(Graphical User Interface,GUI):PtWAVE 开发了便捷的在线图形用户界面。用户在 “Input parameter” 选项卡输入分析名称、原间隔序列、PAM 序列等信息,上传样本文件并设置突变分析范围等参数后,点击 “Analysis” 即可快速执行分析。分析结果在 “output” 选项卡呈现,包括差异图、Indels 分布柱状图、编辑效率、序列比对和等位基因贡献等信息,直观清晰,便于用户解读。
- 分析模式的基准测试(Benchmarking):研究人员利用体外实验数据集,对 PtWAVE 的分析模式进行了全面评估。在检测 85bp 缺失时,使用 NNLS 算法和不同可变选择模式,结果显示 PtWAVE 预测值与实际测量值相关性极高(皮尔逊相关系数大于 0.98) ,决定系数(Coefficient of Determination,CoD)大于 0.97,表明存在良好的线性关系。“random” 和 “backstep” 模式的贝叶斯信息准则(Bayesian Information Criterion,BIC)明显低于 “all” 模式,说明这两种模式能有效降低模型不确定性。但改变设置扩展缺失检测范围时,“random” 模式可能出现检测能力丧失的情况,“backstep” 模式则相对稳定。
- 与现有 TIDE 分析工具的性能比较:研究人员将 PtWAVE 与 TIDE、ICE、DECODR 进行对比。在检测 85bp 大缺失方面,ICE 和 TIDE 默认设置无法检测,DECODR 虽能检测,但相关性不如 PtWAVE 的 “all” 和 “backstep” 模式。在编辑效率评估上,DECODR 部分模式与 PtWAVE “backstep” 模式表现相似,但在某些样本中仍存在差异。在检测性能指标(准确性、召回率、精确性、F1 分数和马修斯相关系数(Matthews correlation coefficient,MCC))方面,PtWAVE “all” 模式表现最佳,DECODR 次之,PtWAVE “backstep” 模式再次之。此外,利用已发表数据集验证时,PtWAVE 能检测到其他工具无法发现的大于 50bp 的缺失,展现出更高的敏感性。
- 推荐设置:综合考虑不同实验条件和样本类型,研究人员推荐在实际 Indel 分析中,将 “all” 和 NNLS 组合作为常用设置;对于可能存在模型不确定性的大量细胞群体样本,建议使用 “backstep” 和 NNLS 组合;而 “random” 模式和 LASSO 模型可作为实验参数供用户探索尝试。
研究结论与讨论
PtWAVE 软件在检测大缺失方面展现出卓越的准确性和敏感性,相比现有 TIDE 分析工具具有明显优势。它能够检测高达 200bp 的 Indels,为研究人员提供了更广泛的检测范围。这一成果对于那些在基因组编辑过程中经常出现大缺失的生物和细胞类型的研究具有重要意义,有望显著加速相关基因组编辑研究的进程,推动基因治疗、作物改良等领域的发展。
尽管目前 TIDE 工具在检测大于 1kb 的缺失等位基因比例时仍存在困难,但随着技术的不断进步,若桑格测序方法能够产生超过 1kb 的读数,PtWAVE 将有可能更可靠地估计更广泛范围的 Indels,为基因组编辑研究带来更多突破。此外,PtWAVE 集成了多种分析方法,可根据不同实验条件灵活选择,为研究人员提供了强大的分析工具,在基因组编辑领域具有广阔的应用前景。
总之,PtWAVE 软件的出现为基因组编辑研究中的大缺失检测难题提供了有效的解决方案,为该领域的进一步发展奠定了坚实基础,有望开启基因组编辑研究的新篇章,助力科学家们在生命科学的前沿探索中取得更多重要成果。