
-
生物通官微
陪你抓住生命科技
跳动的脉搏
Nature Methods:通过系统发育压缩高效稳健地搜索微生物基因组
【字体: 大 中 小 】 时间:2025年04月10日 来源:Nature Methods 36.1
编辑推荐:
随着生命科学领域测序基因组数据量逼近数百万,传统搜索工具(如 BLAST)难以应对。研究人员开展了系统发育压缩技术的研究,该技术可提升数据压缩比,还能实现类似 BLAST 的快速搜索,对计算生物学及未来基因组学基础设施意义重大。
在生命科学领域,包含近数百万个已测序基因组的综合数据集已成为核心信息源。然而,这些数据集的快速增长使得使用诸如基本局部比对搜索工具(BLAST)及其后续工具搜索这些数据变得几乎不可能。
在此,介绍一种名为系统发育压缩(phylogenetic compression)的技术,它利用进化历史指导数据压缩,并借助现有算法和数据结构高效搜索大规模微生物基因组数据集。
研究表明,当将该技术应用于包含近数百万个基因组的现代多样化数据集时,无损系统发育压缩能将基因组组装、德布鲁因图(de Bruijn graphs)和 kmer索引的压缩比提高一到两个数量级。
此外,研究人员开发了一种针对这些经系统发育压缩的参考数据进行类似 BLAST 搜索的流程,并且证明在普通台式计算机上,该流程能在数小时内将基因、质粒或整个测序实验数据与截至 2019 年已测序的所有细菌进行比对。
系统发育压缩在计算生物学领域有着广泛的应用,还可能为未来基因组学基础设施提供基本设计原则。
生物通微信公众号
知名企业招聘