SVLearn:双参考机器学习方法实现跨物种结构变异精准基因分型

【字体: 时间:2025年03月12日 来源:Nature Communications 14.7

编辑推荐:

  研究人员针对短读测序数据中结构变异(SVs)基因分型难题,开发 SVLearn 方法,显著提升准确率,助力疾病研究。

  在基因的神秘世界里,有一种被称为结构变异(Structural Variations,SVs)的 “小调皮”,它们广泛存在于基因组中,对生物的各种性状和人类疾病有着重要影响。想象一下,基因组是一座巨大而复杂的城市,SVs 就像是城市里突然出现的道路改道、建筑增减等变化,这些变化看似微小,却可能对整个城市的运转产生重大影响。近年来,长读测序技术的出现,让科学家们在探测 SVs 方面有了更强大的 “武器”,但由于其成本高昂且数据稀缺,在大规模人群中,尤其是在序列解析水平上,SVs 的基因分型仍主要依赖短读测序数据。然而,短读测序就像是拿着一张分辨率不高的地图去探索城市,存在诸多挑战,比如对基因组区域的覆盖不足,面对复杂的基因组重排时信息有限,难以准确识别 SVs。为了攻克这些难题,西北农林科技大学动物遗传育种与繁殖陕西省重点实验室等研究机构的研究人员展开了深入研究,他们的成果发表在《Nature Communications》上,为解开 SVs 的谜团带来了新的曙光。
研究人员开发了一种名为 SVLearn 的基于机器学习的工具,用于从短读测序数据中准确对 SVs 进行基因分型。该工具利用双参考策略,构建了参考基因组(REF)和包含已知双等位基因插入 / 缺失替代等位基因序列的替代基因组(ALT)。这就好比为探索基因组城市准备了两张不同视角的地图,一张是常规地图(REF),另一张则标注了可能出现 “变化” 的特殊地图(ALT),以此来提高 SV 位点的读数丰度。

在研究过程中,研究人员使用了多种关键技术方法。首先,他们从公开数据库收集了来自人类、牛和羊的测序数据,包括 PacBio HiFi 长读数据和 2×150 bp 配对末端短读数据。然后,通过 Minimap2 和 Sniffles2 等工具处理长读数据,构建了 SVs 的真实基因型集合。为了生成 ALT 基因组,他们采用了阈值法和伪重叠群法,以避免重叠 SVs 对双等位基因的影响。在短读映射方面,使用 BWAMEM2 将短读映射到 REF 和 ALT 基因组,并进行一系列处理以获得高质量的 BAM 文件。此外,还从基因组、比对和基因分型统计等多方面提取特征,并利用这些特征训练多种机器学习模型,最终确定随机森林算法表现最佳,并对其进行优化得到多个模型。

下面来看看具体的研究结果:

  • SV 基因型概况:研究人员收集了 15 个人类个体的数据,经过一系列处理后得到 38,613 个双等位基因变异,这些变异被分为不同类型,其中可变数目串联重复(VNTR)最为常见。通过双参考基因组映射,发现映射到 SV 位点的平均读数数量增加了 45.56%,这为后续的基因分型提供了更丰富的信息。
  • 最佳模型选择和特征识别:在六种机器学习算法中,随机森林被证明表现最佳。通过留一法策略优化模型后发现,一些比对特征在正确基因分型 SVs 中排名靠前,此外,与长度相关的特征和 Paragraph 工具生成的部分特征也对模型性能有重要贡献。对串联重复区域的特征消融分析表明,手工制作的 SV 特征在提高该区域基因分型准确性方面起着关键作用。
  • SV 基因分型性能评估:与 Paragraph、BayesTyper 等其他工具相比,SVLearn 在对长读衍生的插入和缺失进行基因分型时表现更优。在不同覆盖度下,SVLearn 的 F1 分数、加权基因型一致性(wGC)等指标均优于其他工具,尤其在处理复杂 SVs 时,其 F1 分数下降幅度更小,稳定性更高。在对不同来源的 SVs 进行基因分型时,SVLearn 对基于单倍型解析基因组(assembly - based)的 SVs 基因分型性能略优于基于长读映射到 GRCh38 参考基因组(read - based)的 SVs,且两种类型的模型表现出高度一致的泛化性。在对独立于训练集的 HG002_SVs_Tier1_v0.6_plus 数据集进行测试时,SVLearn 的 Human 24 Feature Model 在不同覆盖度下均取得了较高的 wGC。
  • 串联重复区域基因分型性能提升:由于研究中收集的 SVs 与串联重复(TR)区域关联比例较高,研究人员对 TR 区域内外的 SVs 进行分层分析。结果显示,SVLearn 在 TR 区域的基因分型精度显著提高,在 30× 覆盖度下,其对 TR 区域内缺失和插入的基因分型精度比其他工具(除 BayesTyper 外)至少高 13.75% 和 15.61%,且在召回率方面也表现最佳。
  • 测序覆盖度对模型性能的影响:研究发现,随着测序覆盖度降低,基因分型性能逐渐下降。但在每个覆盖度下,专门针对该覆盖度训练的模型表现最佳。SVLearn 模型在不同覆盖度下整体表现优于其他工具,且添加 6 个 Paragraph 特征后,模型在不同覆盖度下的评估指标波动更小。
  • SV 基因型分类倾向:通过计算混淆矩阵,发现 SVLearn 在所有覆盖度下对三种基因型(0/0、0/1、1/1)的基因分型准确性均有显著提高,尤其在处理杂合 SVs(0/1)时表现更优,且基因型翻转率最低。
  • 在牛和羊中的评估:研究人员为牛和羊构建了专门的模型,在对牛和羊的 SVs 进行基因分型时,SVLearn 模型同样表现最佳。例如,Cattle 24 Feature Model 在 30× 覆盖度下对夏洛莱牛的 wGC 达到 90.07%,F1 分数为 0.853;Sheep 24 Feature Model 对罗曼诺夫羊的 wGC 为 91.29%,F1 分数为 0.8687。
  • 跨物种基因分型性能检验:研究人员用针对一种物种训练的 24 特征最佳模型对其他两种物种的 SV 集进行测试,发现模型的基因分型性能对物种类型变化不敏感,但人类模型在低覆盖度下表现相对较差,可能是由于训练样本数量和测序覆盖度的差异。在 10× 覆盖度下,人类、牛和羊的模型在 wGC 值和 F1 分数上差异较小。

总的来说,SVLearn 为 SVs 的准确基因分型提供了一种实用的方法。它通过双参考策略提高了短读映射到 SV 位点的数量,整合了多源信息的特征,在重复区域基因分型方面具有显著优势。尽管该方法存在计算消耗高、仅支持双等位基因 SV 基因分型等局限性,但研究人员通过优化训练过程,为大规模研究人类和其他物种群体中的 SVs 奠定了基础,有望加速对基因组规模、高质量基因分型的 SVs 与疾病之间关联的理解,为生命科学和医学研究开辟新的道路。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号