编辑推荐:
为解决猪 SV 检测相关程序评估不足及缺乏猪特异性基准集的问题,中国农业科学院深圳农业基因组研究所的研究人员开展猪 SV 检测工具评估研究。他们构建基准集评估 16 种工具,成果可为猪和其他农场动物 SV 检测提供指导,值得一读。
在生物遗传学的大舞台上,猪(Sus scrofa)可是个 “大明星”!它不仅是我们餐桌上不可或缺的肉类供应者,还因为和人类在解剖、病理以及生理上的高度相似,成为了重要的生物医学研究模型。想象一下,深入了解猪的遗传密码,不仅能让我们培育出更优质的猪种,满足农业生产的需求,还能为人类医学研究提供宝贵的线索,这简直就是一把能打开两个宝藏大门的神奇钥匙1。
要想彻底解开猪的遗传秘密,结构变异(SVs,Structural Variations)的研究至关重要。SVs 作为遗传变异的一种关键形式,就像是遗传密码里隐藏的 “小彩蛋”,蕴含着巨大的能量,有可能解释那些单核苷酸多态性(SNPs,Single Nucleotide Polymorphisms)无法解释的遗传现象。之前的研究已经发现,SVs 在决定人类复杂疾病、塑造动植物重要农艺性状以及适应环境等方面都发挥着不可或缺的作用。在猪的研究领域,SVs 也被用于探索驯化历史、揭示遗传多样性,甚至有人尝试用它来进行全基因组关联研究(GWAS,Genome-Wide Association Study),探索 SVs 与表型之间的神秘联系12。
不过,理想很丰满,现实却有点骨感。虽然 SVs 潜力巨大,但想要充分挖掘它,却困难重重。目前,大量基于不同算法的 SV 检测程序(callers)纷纷涌现,就像超市货架上琳琅满目的商品,让人眼花缭乱。这些算法各有优缺点,选择起来实在让人头疼。而且,读取比对(aligner)和基因组组装(assembler)程序也会对 SV 检测产生影响。更麻烦的是,在人类研究中,已经有像基因组在瓶联盟(GIAB,Genome In A Bottle Consortium )这样的组织发布了金标准删除(DEL,Deletion )和插入(INS,Insertion )集,推动了生物信息学软件的发展和比较。但猪的基因组可不一样,它的连锁不平衡(LD,Linkage Disequilibrium )和纯合度平均水平比人类更高,那些在人类研究中表现出色的 SV 检测方案,放到猪身上可能就 “水土不服” 了。另外,常用的二代测序(NGS,Next-Generation Sequencing )平台,比如 Illumina 全基因组重测序(WGS,Whole Genome Resequencing ),虽然在碱基分辨率上表现优秀,但读取长度较短,很难检测到大型复杂的 SVs。相比之下,三代测序技术(TGS,Third-Generation Sequencing Technologies ),如 PacBio 环形一致测序(HiFi)和牛津纳米孔技术(ONT,Oxford Nanopore Technologies ),虽然能产生更长的读取,更适合检测大型复杂的 SVs,但之前却缺乏对猪 SV 检测流程的系统全面评估346。
为了攻克这些难题,来自中国农业科学院深圳农业基因组研究所的研究人员们勇挑重担。他们在《iScience》期刊上发表了一篇名为 “Systematic benchmarking of tools for structural variation detection using short- and long-read sequencing data in pigs” 的论文。经过一系列艰苦的研究,他们得出了许多重要结论:长读长平台能检测到许多短读长平台遗漏的 SVs,且精度相似;基于组装的 SV 调用程序 SVIM-asm 在检测性能和资源消耗方面表现优异;支持读数越多、大小在 1kb 以下、位于简单重复区域之外、低 GC 含量和纯合子区域(ROH,Runs of Homozygosity )的 SVs,检测精度越高;基于比对的工具即使在 5× 测序深度下也表现良好。这些结论为猪和其他农场动物的 SV 检测提供了系统的指导,就像是为遗传研究人员们绘制了一张精准的地图5。
研究人员在开展这项研究时,用到了几个关键的技术方法。首先是多平台测序技术,他们收集了 5 头来自不同品种的猪,用两种长读长平台(HiFi 和 ONT)和两种短读长平台(WGS 和 Hi-C,High-Throughput Chromosome Conformation Capture )对这些猪进行了深度测序。然后是 SV 检测与基准集构建技术,运用多种比对和组装工具检测 SVs,并整合这些结果构建猪 SV 基准集。最后,通过计算精度、召回率和 F1 分数等性能指标,对不同平台、比对器和调用器的 SV 检测性能进行评估723。
下面来看看具体的研究结果:
- 基于不同平台、比对器和调用器的 SV 调用集特征:研究人员对 5 头来自不同地理区域品种的猪进行了深度测序。通过分析不同调用集中 SVs 的数量和相似性,他们发现,基于 Hi-C 数据的 EagleC 检测到的 SVs 数量很少,而 TGS 平台相比 NGS 平台能检测到更丰富的潜在 SVs。进一步分析还发现,影响 SV 检测的主要因素是调用器,其次是平台,最后是比对器89。
- 猪 SV 基准集的构建:研究人员整合了 18 种比对器 - 调用器组合和 2 种基于 TGS 长读长的组装式调用器的 SV 调用集,构建了猪 SV 基准集。这些基准集中大多数 SVs 的大小小于 500bp,主要类型是缺失和插入。经过 PCR 验证,总体验证率达到了 88.2%,不过研究人员也指出,由于样本量较小,可能存在随机和抽样偏差,还需要更大规模的 PCR 实验来进一步验证1011。
- 基于不同平台、比对器和调用器的 SV 检测性能的全局评估:研究人员发现,NGS-based 调用器的精度与大多数 TGS-based 比对器 - 调用器组合相当,但召回率较低,尤其是在检测插入时。基于组装的调用器 SVIM-asm 在调用性能上总体更优。此外,他们还通过模拟数据集进行了验证,发现模拟数据和真实数据的实验结果有一定差异,这也说明了真实基因组的复杂性1213。
- 支持读数数量和长度对 SV 检测的影响:随着支持读数数量的增加,除了 Picky 与 minimap2 和 NGMLR 组合外,其他组合检测总 SVs 的精度总体上有所提高。对于 SV 长度,100 - 499bp 长的 SVs 检测效果最佳,而对于长度不小于 10kb 的 SVs,所有组合的检测能力都很低。值得一提的是,基于组装的工具 SVIM-asm 对于小于 10kb 的 SVs 始终表现出强大的性能1415。
- 复杂基因组区域中 SV 检测的有效性:在复杂基因组区域检测 SVs 是一项挑战,但研究发现,在 LINE 和 SINE 区域检测 SVs 的精度和召回率与其他区域相近,且明显高于简单重复区域。在低 GC 区域检测总 SVs 的精度明显高于高 GC 区域。此外,研究人员还发现,大多数比对器 - 调用器组合在检测 ROH 中的 SVs 时精度更高1617。
- 测序深度对 SV 调用的影响:研究发现,大多数 TGS-based 比对器 - 调用器组合检测到的 SVs 数量随深度增加而增加,但一些工具如基于 ONT 数据的 SVIM 和 Picky 在 20× 深度时检测数量达到最大值。在 SV 调用性能指标方面,F1 和召回率值基本随测序深度增加而增加,但很快达到平台期。总体而言,调用器在 5× - 10× 的低深度下就能达到最大检测潜力1819。
- 比对器和调用器的计算负载:研究人员比较了所有比对器 - 调用器组合的计算成本,发现基于比对的方法通常比 SV 调用更耗时和耗内存,但 DeBreak 除外。在两种基于组装的调用器中,SVIM-asm 在运行时间和最大内存成本方面比 MUM&Co 更高效20。
研究人员通过全面评估不同测序平台的 SV 检测相关程序,为猪和其他农场动物找到了高效的 SV 检测流程。他们的研究不仅提供了猪 SV 基准集,还让人们更系统地了解了不同条件下 SV 检测的性能。这对于后续的相关研究,如 SV 插补、基于 SV 的 GWAS 以及解读缺失的遗传力等,都有着重要的意义。就像为遗传研究领域点亮了一盏明灯,为后续的研究指明了方向。不过,研究人员也很谦虚地指出了研究的局限性。比如,他们使用的基准测试方法比较保守,可能会排除一些特定调用器或比对器 - 调用器组合能很好处理的 SVs。未来可以尝试使用更先进的集成策略,如机器学习或深度学习。另外,增加品种和样本量,尤其是包括亲子三代样本,将有助于更全面的 SV 检测和更可靠的验证。相信在未来,随着研究的不断深入,我们对猪的遗传密码会有更深入的了解,也能更好地利用这些知识为农业生产和人类医学研究服务2122。