ConsensuSV-ONT:基于长读长测序和卷积神经网络的结构变异精准检测新方法

【字体: 时间:2025年05月18日 来源:Scientific Reports 3.8

编辑推荐:

  结构变异(SVs)检测对疾病研究至关重要,但牛津纳米孔(ONT)长读长测序工具有限。本研究开发 ConsensuSV-ONT 算法,整合 6 种 SV 检测工具及卷积神经网络(CNN)过滤变异。结果显示其性能优于单一工具,为 ONT 数据 SV 分析提供高效方案。

  
基因组学研究中,结构变异(Structural Variants, SVs)作为长度大于 50 碱基对的基因组改变,与多种疾病的发生机制密切相关。然而,现有针对牛津纳米孔(Oxford Nanopore, ONT)长读长测序技术的结构变异检测工具有限,且不同算法存在偏差,单一工具难以兼顾准确性与全面性。如何整合多工具结果、提升 ONT 数据中结构变异检测的可靠性,成为领域内亟待解决的问题。

为此,华沙理工大学(Warsaw University of Technology)与华沙大学(University of Warsaw)等机构的研究人员开展了相关研究,开发了全新的 ConsensuSV-ONT 算法,并在《Scientific Reports》发表研究成果。该研究旨在通过整合多工具共识与机器学习技术,构建适用于 ONT 数据的高效结构变异检测流程,为下游疾病关联分析提供高质量数据基础。

研究主要采用以下关键技术方法:

  1. 多工具整合流程:利用 CuteSV、Sniffles2、SVIM 等 6 种长读长测序结构变异检测工具生成候选变异集,通过 Truvari 工具合并结果并去除重叠变异。
  2. 卷积神经网络(CNN)模型:将变异区域编码为 50×50×3 的图像矩阵,分别训练针对缺失(DEL)和插入 / 重复(INS/DUP)的分类模型,以过滤高质量变异。
  3. 自动化 pipeline:基于 Nextflow 构建 Docker 容器化流程,支持从原始 ONT 数据到最终变异列表的全流程自动化处理,实现多样本并行计算。

研究结果


1. ConsensuSV-ONT 流程概述


算法分为四个阶段:

  • 候选变异生成:通过 6 种工具检测变异,经 Truvari 合并去重后形成非重叠候选集。
  • 变异标注:利用 Truvari bench 模块将变异分为真实阳性(TP)和假阳性(FP)集合,用于模型训练。
  • 图像编码:将变异区域的比对信息编码为 RGB 图像,保留映射、缺失等关键特征。
  • CNN 训练:采用三样本交叉验证,独立训练 DEL 和 INS/DUP 模型,以 0.5 为概率阈值区分真假变异。

2. 检测性能评估


在 HG00733、HG00514、NA19240 三个数据集上,ConsensuSV-ONT 的 F1 分数显著优于单一工具及现有方法(如 cnnLSV)。例如,在缺失检测中,其 F1 分数达 0.6577-0.6733,远超 CuteSV(0.3418-0.3844)和 Sniffles(0.4489-0.4971)。合并工具结果虽提升召回率,但精度较低,而 ConsensuSV-ONT 通过 CNN 过滤有效平衡了精度与召回率。

3. 测序方法差异与编码分析


对比 ONT、PacBio、Illumina 数据的变异编码图像发现,ONT 数据在大缺失检测中表现更稳定,而 PacBio 数据因片段化严重可能导致模型误判。例如,在 9637 bp 缺失检测中,Illumina 因 reads 映射不足无法识别,仅长读长技术(ONT、PacBio)能正确检测,显示 ONT 在复杂变异检测中的优势。

4. 假阳性分析


研究发现假阳性来源包括:

  • 邻近变异合并:GROUND TRUTH 中多个邻近缺失被算法误判为单一变异。
  • 映射偏差:ONT 与 PacBio 数据的比对差异导致变异定位偏移。
  • 新变异不确定性:部分 ONT 检测到的变异未被其他技术验证,需进一步实验确认。

结论与讨论


ConsensuSV-ONT 通过整合多工具共识与 CNN 过滤,显著提升了 ONT 长读长测序中结构变异检测的准确性,尤其在缺失和插入检测中表现优异。其自动化 pipeline 和容器化部署降低了使用门槛,为非生物信息学背景的研究者提供了便捷工具。该方法不仅为 ONT 数据的结构变异分析提供了新范式,也为大规模人群基因组研究(如基于 ONT 的群体测序计划)奠定了基础,有望推动疾病相关结构变异的精准识别与机制研究。

研究同时指出,不同测序技术的变异检测性能差异显著,未来需进一步优化跨平台模型训练,以提升变异检测的通用性。ConsensuSV-ONT 的问世标志着 ONT 技术在结构变异研究中的应用迈出重要一步,其在疾病关联分析、精准医学等领域的潜力值得期待。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号