纳米孔测序技术结合 RetroInspector:深度解析人类基因组中反转录转座子变异的新利器

【字体: 时间:2025年04月26日 来源:Scientific Reports 3.8

编辑推荐:

  在人类基因组研究中,转座元件(TEs)检测困难。研究人员开展了利用纳米孔测序和 RetroInspector 分析 TEs 的研究。结果显示,RetroInspector 检测精度超 80% 。该研究为探索 TEs 在遗传和疾病中的作用提供了有力工具。

  在浩瀚的生命科学领域,人类基因组一直是科学家们探索的重要对象。转座元件(TEs)作为基因组的重要组成部分,约占人类基因组的 45%,却如同隐藏在基因组中的 “暗物质”,给科研工作带来诸多挑战。TEs 具有高度的移动性,能够在基因组中跳跃到不同位置,这不仅使它们成为遗传变异的重要来源,还参与了基因调控、疾病发生等关键生物学过程 。然而,由于 TEs 的多样性、重复性以及进化机制的复杂性,其检测难度极大。传统的短读长测序(SRS)方法在面对 TEs 时,犹如雾里看花,难以准确识别和分析。尽管长读长测序(LRS)技术的出现为 TEs 检测带来了曙光,但与之相匹配的生物信息学工具却极为匮乏,这严重制约了对 TEs 的深入研究。因此,开发一种高效、全面的 TEs 分析工具迫在眉睫。
在这样的背景下,来自西班牙穆尔西亚大学(Universidad de Murcia)的研究人员 Javier Cuenca - Guardiola、Belén de la Morena - Barrio、Javier Corral 和 Jesualdo Tomás Fernández - Breis 开展了一项重要研究。他们开发了 RetroInspector,这是一款基于纳米孔测序数据的综合性分析工具,能够对 TEs 进行检测、注释、富集分析和基因分型。相关研究成果发表在《Scientific Reports》上,为人类基因组中 TEs 的研究开辟了新道路。

研究人员在开发 RetroInspector 时,采用了一系列先进的技术方法。首先,利用 minimap2 将纳米孔测序得到的碱基序列与人类参考基因组版本 GRCh38 进行比对,随后使用 samtools 对得到的比对结果进行排序和索引,生成 BAM 格式的比对文件。在变异检测环节,选择 cuteSV 和 Sniffles2 软件进行变异检测,生成 VCF 文件,并根据读取证据对变异进行筛选。对于插入序列,研究人员借助 pysam 从支持读取中检索并使用 spoa 库进行重组装;而对于删除变异,则运用 SURVIVOR 软件进行合并和筛选。此外,研究人员还运用 RepeatMasker、BLAST 等工具对 TEs 进行识别和注释,并通过 R 语言中的多个包进行基因富集分析。研究过程中使用了多个样本队列,包括来自 PromethION 测序的样本、HGSV(Human Genome Structural Variation Consortium)的样本等。

下面来详细看看研究结果:

  • 验证和基准测试:研究人员通过 PCR 扩增和测序对 RetroInspector 的变异检测性能进行了验证。在之前工作流程的基础上,对 17 个插入进行验证,其中 14 个(82.4%)得到确认;在本次研究中,对 20 个插入进行实验验证,15 个(75%)得到验证。通过与包含 5630 个 TE 插入的真值集对比,发现 cuteSV 和 Sniffles2 的组合与 HGSV 数据集的一致性更好。在严格标准下,对 HGSVC 研究分类为 TEs 的子集,检测精度高于 80%;考虑所有插入时,精度高于 85%。
  • 基因型基准测试:RetroInspector 利用读取证据和覆盖度数据计算插入的基因型。通过对 HGSV2 队列的测试,发现其结果与真值集高度一致,所有变异检测软件组合的精度均超过 95%,其中 cuteSV 和 Sniffles2 组合的最佳精度达到 96.99%。
  • 边缘假阴性和合并分析:研究人员分析了同卵双胞胎的样本,发现大部分样本特异性插入位于嘈杂的基因组区域,或是由于插入等位基因代表性不足等原因导致。通过调整合并距离等参数,可以减少样本特异性插入的数量。
  • 时间使用和可扩展性:研究发现,比对是最耗时的步骤,而 RetroInspector 在处理相同样本时,比另一种长读长 TE 检测软件 PALMER 耗时更短,且能生成更完整的分析结果。例如,RetroInspector 处理三个 HGSVC 样本仅需 1005.14 分钟,而 PALMER 则需要 4605.15 分钟。
  • 反转录转座特征识别:研究人员探索了反转录转座的两个关键特征 —— 插入序列末端的 polyA 尾巴和 L1 内切酶靶序列的共有基序。虽然这些特征能提高检测精度,但会降低召回率,整体 F1评分有所下降。
  • TE 插入和缺失的识别:在对 24 例抗凝血酶(AT)缺乏患者的样本分析中,共鉴定出 6714 个 TE 插入,其中 Alu 和 SVA 插入最为常见。此外,还发现了一些与疾病相关基因的插入,如在 SERPINC1 基因中发现了 SVA 插入。
  • 插入序列的重组装:RetroInspector 会检索支持插入的读取,并对受影响区域进行重组装,以获得新的序列。在重组装过程中,会排除长度差异过大的读取,以减少噪声影响。
  • TE 插入和缺失的基因分型:RetroInspector 利用覆盖度和读取支持数据计算插入的基因型,进而确定样本中的等位基因频率。通过将基因型与严格和宽松数据集进行比较,可以筛选出可能的错误插入。
  • 样本比较:RetroInspector 能够比较成对样本,识别出样本间共有的和独特的 TE 插入,并对其进行注释。例如,在比较 NA19240 和 HG00514 两个样本时,发现它们共有 870 个 TE 插入,同时存在 2361 个非共有的插入。

研究结论和讨论部分指出,RetroInspector 为研究 TE 插入提供了一个高效、便捷的流程。它基于 Snakemake 构建,具有自动安装依赖项、可重复性强和用户友好等优点。通过对不同样本的分析,研究人员发现 RetroInspector 不仅能够检测到活跃的 TE 插入,还能识别出不活跃的 I 类和 II 类元件插入,尽管对这些不活跃元件插入的解释更为复杂,但研究人员通过实验验证了它们并非由比对错误导致。此外,RetroInspector 的注释和富集分析功能,能够帮助研究人员了解 TE 插入对基因和功能的影响,这对于研究癌症等疾病的发生机制具有重要意义。与其他工具相比,RetroInspector 在检测精度和时间消耗方面表现出色,为人类基因组中 TEs 的研究提供了有力支持。然而,研究也存在一定的局限性,如未能对 xTea 工具进行比较评估。未来,随着对 TEs 研究的不断深入,RetroInspector 有望在揭示人类遗传变异、探索疾病机制等方面发挥更大的作用,为生命科学和健康医学领域的研究提供更深入的见解。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号