基于 DNBSEQ 全基因组测序的结构变异检测性能评估:为基因组研究提供关键参考

《BMC Genomics》:Performance evaluation of structural variation detection using DNBSEQ whole-genome sequencing

【字体: 时间:2025年03月26日 来源:BMC Genomics 3.5

编辑推荐:

  为探究 DNBSEQ 平台检测结构变异(SV)的性能,研究人员用 40 种工具分析测序数据,发现其与 Illumina 平台性能相似,为后续研究提供基准。

  

结构变异检测新探索:DNBSEQ 平台的性能评估

在神秘的基因组世界里,结构变异(Structural Variation,SV)就像隐藏在基因序列中的 “暗物质”,它指的是大小超过 50bp 的各类基因组突变,包括缺失(Deletion,DEL)、插入(Insertion,INS)、重复(Duplication,DUP)、倒位(Inversion,INV)和易位(Translocation,TRA) ,这些变化虽微小却能量巨大,对人类种群的多样性、健康和疾病都有着深远的影响。比如,1000 Genomes Project 发现 SV 在表达数量性状位点(eQTLs)上的富集程度约为单核苷酸变异(Single-Nucleotide Variants,SNVs)的 50 倍,这足以证明它在基因调控中的关键作用。
目前,大规模的人类疾病和种群研究多依赖短读长全基因组测序(Whole-Genome Sequencing,WGS)技术。Illumina 平台凭借其广泛应用,成为了相关研究的主力军,众多研究基于此平台拓宽了基因组变异谱。但自 2015 年起崭露头角的 DNBSEQ 测序平台,也因其高精度测序、低重复率和低索引跳跃率等优势,在基因组研究领域得到了广泛应用。然而,就像在黑暗中摸索,人们虽看到了 DNBSEQ 平台的潜力,却对它检测 SV 的性能和特征知之甚少。尤其是对于 INSs 和 INVs 等变异类型,其在 DNBSEQ 平台上的综合特征仍是未解之谜。为了填补这一知识空白,深入了解 DNBSEQ 平台在 SV 检测方面的能力,来自深圳华大基因和深圳华大智造科技有限公司的研究人员开启了一场意义非凡的探索之旅,相关研究成果发表在了《BMC Genomics》杂志上。
研究人员为了全面评估 DNBSEQ 平台检测 SV 的性能,精心挑选了 10 个 NA12878 的生殖系样本 WGS 数据集,其中 8 个由 DNBSEQ 平台(BGISEQ - 500 和 DNBSEQG400)测序,2 个由 Illumina 平台(HiSeq2500 和 NovaSeq6000)测序。随后,他们运用了 40 种涵盖 5 种不同算法的工具对这些数据集进行分析,这 5 种算法分别是读深度(Read Depth,RD)、读对(Read Pair,RP)、分裂读(Split Read,SR)、从头组装(De Novo Assembly,AS)和组合方法(Combination of Approaches,CA) 。在分析前,研究人员还对数据进行了严格筛选,利用 SOAPnuke 软件去除低质量 reads,再用 BWA - MEM 将高质量 reads 比对到人类参考基因组(hg19),经过一系列处理后,获得了高质量的测序数据用于后续分析。

DNBSEQ 和 Illumina 平台 SV 检测性能相似

研究人员用 40 种工具对 10 个数据集进行 SV 检测,结果令人惊喜地发现,DNBSEQ 平台和 Illumina 平台检测到的各类 SV 数量十分相近。例如,DNBSEQ 平台平均检测到 2,838 个 DELs、1,490 个 DUPs、1,117 个 INSs、422 个 INVs 和 2,793 个 TRAs;Illumina 平台则平均检测到 2,676 个 DELs、1,664 个 DUPs、737 个 INSs、239 个 INVs 和 2,878 个 TRAs。进一步评估检测的准确性和敏感性时,研究人员以 Shunichi 等人 2019 年的研究方法和 NA12878 样本基准为参照,计算了 DELs、DUPs、INSs 和 INVs 的精度和敏感性(TRA 因缺乏基准和高假阳性率被排除)。结果显示,两个平台在这些指标上表现相似,而且用同一工具在两个平台上检测 SV 时,其数量、大小、敏感性和精度的相关性都很高,这充分表明基于 Illumina 平台开发的 SV 检测工具同样适用于 DNBSEQ 平台。

整合后的 SV 集验证率高

研究人员整合了 DNBSEQ 平台 8 个数据集和 Illumina 平台 2 个数据集的 SV 检测结果,分别构建了 “DNBSEQ” 集(4,785 个 SVs)和 “Illumina” 集(6,797 个 SVs)。为了验证这些 SV 集的可靠性,他们选择了 Manta 工具能检测到的 SVs,针对 DELs 和 INSs 进行实时 PCR 验证。从 “Manta 支持” 的 SVs 中随机选取 17 个 SVs 进行验证,包括 6 个 “DNBSEQ” 特异性 SVs、5 个 “Illumina” 特异性 SVs 和 6 个共享 SVs。结果显示,“DNBSEQ” 集的 12 个 SVs 全部通过验证,“Illumina” 集的 11 个 SVs 中有 9 个验证成功,共享 SVs 的验证率更是达到了 100%,这为后续深入分析 SV 集的基因组特征提供了坚实的基础。

SVs 的基因组特征分析

研究人员深入分析了 “DNBSEQ” 和 “Illumina” SV 集的基因组特征,发现两个 SV 集的大小分布相似,都呈现出 Alu(约 300bp)和 LINE1(L1,约 6kb)的移动元件特征,且多数 SVs 都位于重复区域。在 GC 含量方面,不同类型的 SVs 呈现出不同的分布模式,但两个平台的 SV 集在 GC 含量模式上具有一致性。此外,SVs 在染色体上的分布也存在偏好,它们在端粒和着丝粒附近都有富集现象,而且研究人员还在两个 SV 集中分别鉴定出了 26 个和 51 个 SV 热点,这些热点大多位于着丝粒或端粒附近。同时,研究发现 SVs 更倾向于出现在难以测序的区域,并且在基因的功能区域分布较少,主要集中在基因间区域。

资源消耗情况

研究人员还记录了使用各种工具在约 30X WGS 数据集上检测 SV 的时间和内存消耗。发现 Sprites、Pindel、MindTheGap 和 laSV 等工具时间消耗较大,laSV、FermiKit 和 MindTheGap 等工具内存消耗较大。不过,使用相同工具在相似数据量下,DNBSEQ 和 Illumina 数据集的时间和内存消耗具有高度一致性,这为研究人员根据实际需求选择合适的 SV 检测工具提供了参考。
在讨论部分,研究人员指出,尽管 Illumina 平台在 SV 检测方面成果丰硕,但 DNBSEQ 平台的 SV 检测性能此前却鲜为人知。此次研究首次全面分析了 DNBSEQ 平台检测 SV 的性能,发现它与 Illumina 平台在多方面表现一致。同时,研究也揭示了不同工具在检测 SV 时的性能差异,强调了选择合适检测软件的重要性。虽然短读长测序技术在 SV 检测上存在局限性,但研究人员表示未来将继续探索结合泛基因组技术提升 DNBSEQ 数据集的 SV 检测性能,并分析长读长平台的 SV 检测性能。
总的来说,这项研究系统地分析了 DNBSEQ 平台检测生殖系 SV 的性能和特征,证明了该平台与 Illumina 平台在 SV 检测上的一致性,为未来基于 DNBSEQ 平台的 SV 检测提供了重要的基准参考,就像在基因组研究的道路上点亮了一盏明灯,指引着后续研究的方向。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
生物通微信公众号
微信
新浪微博

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号