从微生物组测序数据中挖掘宝藏:顺序共组装技术助力基因组解析

【字体: 时间:2025年03月18日 来源:Cell Reports Methods 4.3

编辑推荐:

  推荐语:本文介绍顺序共组装方法,可减少冗余序列组装,降低内存需求与错误,提升宏基因组分析效率。

  ### 从微生物组测序数据中挖掘宝藏:顺序共组装技术助力基因组解析
在微生物研究领域,从微生物群落样本的 DNA 鸟枪测序读数中生成宏基因组组装基因组(Metagenome-Assembled Genomes,MAGs)是一项关键任务。MAGs 可用于多种分析,如识别难以培养的微生物、进行菌株水平的生态分析以及构建参考基因组等。然而,传统的共组装方法存在诸多挑战,限制了其在实际研究中的应用。本文聚焦于此,介绍了一种创新的顺序共组装方法,为解决这些问题带来了新的希望。

传统共组装的困境与挑战


从微生物群落样本生成 MAGs 的第一步是将鸟枪测序读数组装成重叠群(contigs),这一过程可采用多种方法,包括单个样本读数组装、相关样本共组装或两者结合,之后再将 contigs 聚类成 MAGs。但无论采用哪种方法,组装时间和数据集大小都受多种因素影响,其中冗余测序读数是一个重要问题。

冗余读数的产生原因多样,比如在 DNA 文库制备过程中产生的 PCR 重复,测序深度超过所需导致的多余读数,以及样本中基因组测序覆盖度不均等。这些冗余读数不仅会消耗额外的计算时间和内存,还可能干扰组装过程。以一个简单的微生物群落为例,若群落中有三个丰度相同的生物,每个基因组完整组装需 10,000 条测序读数,那么理论上最少需要 30,000 条读数。但如果测序深度过高,产生的冗余读数就会增加计算负担却无法为组装提供更多有效信息。

目前已有一些去除冗余读数的方法,如 samtools、picard 等,但这些方法通常需要参考基因组;fastp 和 bbtools 虽可用于原始读数文件,但计算量较大。随着测序成本降低和数据集规模增大,这些挑战日益凸显,迫切需要开发更高效的共组装策略,尤其是在计算资源有限的环境中,如许多低、中收入国家,对人类和环境样本进行深入宏基因组研究的需求十分迫切,但却缺乏相应的计算能力。

顺序共组装:创新解决方案


为应对上述挑战,研究人员开发了顺序共组装方法。该方法的灵感来源于通过映射将读数分为不同组(即与参考基因组比对的读数和不比对的读数)的思路,这一思路在宏基因组分析的读预处理步骤以及一些依赖参考基因组映射的去重工具中已有应用。

顺序共组装的具体过程如下:首先对一小部分样本的读数进行共组装,得到一个初始的 “参考” 基因组;然后将所有样本的读数映射到这个 “参考” 基因组上,分离出 “非信息性” 读数(即来自已组装基因组的高丰度生物的读数)和 “信息性” 读数(即来自低丰度生物且在初始共组装中未被组装的读数);最后将初始样本子集的读数与剩余未比对的 “信息性” 读数一起进行共组装。通过这种方式,与传统共组装相比,顺序共组装减少了需要组装的重复读数数量。

顺序共组装的优势尽显


研究人员通过一系列实验验证了顺序共组装的有效性,分别对模拟小鼠肠道微生物组数据、人类肠道微生物组纵向样本数据以及 1600 样本、2.3TB 的微生物组数据进行了测试。

  1. 模拟小鼠肠道微生物组数据实验:研究人员选用了来自第二次 CAMI 挑战的 “toy” 小鼠肠道数据集,该数据集包含 48 个样本,每个样本有 5GB 的模拟 Illumina HiSeq 2000 读数,且模拟样本中的基因组丰度反映了小鼠肠道微生物群样本的 16S rRNA 谱。研究人员进行了四种不同规模的共组装实验,包括三种传统共组装(分别使用 5 个样本、12 个样本和 48 个样本的读数)和一种顺序共组装(使用 5 个样本的读数,再加上所有样本中不与 5 个样本共组装比对的读数)。

实验结果令人惊喜,顺序共组装在多个方面表现出色。在资源利用上,与 48 样本传统共组装相比,顺序共组装的 MEGAHIT 在最终组装步骤中,最大随机存取内存(RAM)使用减少了 66%,分配用于处理读数的内存也减少了 66%,平均组装时间更是减少了 63%。而且,即使在减少了组装时间和内存需求的情况下,顺序共组装的平均比对 contig 长度仍达到 48 样本共组装的 96.5%,恢复的基因组分数也达到了 48 样本共组装的 99.7%。

在组装准确性方面,顺序共组装同样表现优异。通过 MetaQUAST 评估发现,与 48 样本共组装相比,顺序共组装的错误组装显著减少,如错误组装 contig 的长度、错误组装的数量、每 100 千碱基对(kbp)的错配数以及局部错误组装的数量等指标均明显降低。不过,顺序共组装也存在一个小 “瑕疵”,即会导致 contig 碎片化增加,传统 48 样本共组装得到的长度超过 50 kbp 的 contig 总长度和评估组装连续性的 auN 值均高于顺序共组装。

此外,研究人员还评估了在无参考基因组情况下的共组装性能,发现顺序共组装的总体读数比对率与 48 样本传统共组装相近,且两者差异仅为 0.16%。同时,研究证实顺序共组装对低丰度基因组的恢复没有显著影响。
2. 人类肠道微生物组纵向样本数据实验:研究人员选取了来自孟加拉国儿童肠道微生物组纵向研究的粪便样本测序读数。该研究旨在探究微生物群定向补充食品(MDCFs)对 12 - 18 个月大的孟加拉国中度急性营养不良儿童的影响,研究过程中每周收集粪便样本,每个参与者共收集 9 个样本。

研究人员比较了实验室现有的 MAG 组装策略(将每个个体的 9 个样本的所有读数进行共组装)和并行顺序共组装方法。结果显示,顺序共组装的最大 RAM 使用量低于 9 样本共组装,且顺序共组装的初始组装步骤和整个组装过程都比传统 9 样本共组装更快。虽然顺序共组装会使 contig 碎片化增加,但总体读数比对率与传统 9 样本共组装相当,且在多数情况下,顺序共组装的总计算时间更短。
3. 1600 样本、2.3TB 的微生物组数据实验:研究人员对来自实验室的 1600 个样本、2.3TB 的微生物组数据集进行了测试。该数据集来自一系列无菌小鼠实验,实验中 8 周龄无菌小鼠被接种了来自上述临床研究中 16 个预处理粪便样本的混合微生物群落。

实验中,研究人员进行了 6 种共组装实验,包括不同组合的样本共组装和顺序共组装。结果表明,选择合适的初始共组装样本对顺序共组装的效率至关重要。例如,4 样本共组装的输入数据集虽小,但未比对读数的数据集过大,无法用 MEGAHIT 进行组装;而 12 样本和 36 样本的数据集则适合进行顺序共组装。在组装时间上,顺序共组装虽比一些小样本共组装长,但远低于理论上 1600 样本共组装的时间,且 36 样本顺序共组装在所有策略中实现了最高的总体读数比对率。

顺序共组装的应用前景与展望


顺序共组装方法为宏基因组学研究带来了新的突破,它有效解决了传统共组装方法中存在的冗余序列组装、内存需求大、组装时间长和错误率高等问题。通过减少冗余读数的组装,该方法显著降低了数据集大小,进而减少了内存需求和计算时间,同时提高了组装的准确性。

该方法在实际应用中具有广泛的前景。对于资源受限的环境,如低、中收入国家,顺序共组装可在单节点计算系统上处理大规模数据集,有助于推动这些地区的微生物组研究。在实际操作中,可根据微生物群落样本的组成相似性优化顺序共组装的性能。例如,选择包含不同丰度生物的样本进行初始共组装,能提高整体读数比对率,减少重复读数和组装时间。虽然在选择初始组装样本时可能存在一定困难,但研究表明,在纵向采样的人类微生物群数据集分析中,无论初始组装样本如何选择,顺序共组装的总体读数比对率都相近。若追求最大程度地减少组装时间和内存需求,可通过多次初始组装并选择读数比对率最高的结果进行后续顺序共组装。

不过,顺序共组装方法也存在一些局限性。其时间和计算效率依赖于数据集中重复读数的比例,重复率高的数据集受益更多。此外,总体读数比对率这一指标的有效性依赖于测序深度是否足够捕获所有生物。若测序深度不足,可能会高估总体读数比对率,遗漏与低丰度生物的比对。而且,该方法可能会错误地去除基因组中重复或共享区域的读数,且对不同生物的重复读数去除不均衡,更倾向于去除高丰度生物的冗余读数。未来需要进一步优化该策略,例如结合其他去重方法,以实现更均匀的去重效果。

总的来说,顺序共组装方法为宏基因组学研究提供了一种高效、实用的工具,为深入探究微生物群落的奥秘奠定了坚实基础,有望在生命科学和健康医学领域引发新的研究热潮,推动相关领域的快速发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号