《Genome Biology》aurora:解析微生物栖息地适应的创新工具

《Genome Biology》:aurora: a machine learning gwas tool for analyzing microbial habitat adaptation

【字体: 时间:2025年03月24日 来源:Genome Biology 10.1

编辑推荐:

  研究人员开发 aurora 工具分析微生物栖息地适应,可识别相关基因和菌株,为微生物研究带来新突破。

  

微生物在地球的各个角落都扮演着至关重要的角色,它们与人类健康、生态平衡息息相关。在微生物研究领域,微生物基因组关联研究(mGWAS)一直是探索微生物奥秘的重要手段,其主要目标是找出与特定栖息地相关的基因组变异。然而,现有的 mGWAS 工具存在诸多问题。一方面,当分析的性状影响系统发育时,这些工具难以识别已知的因果变异;另一方面,公共数据库中菌株来源信息常因各种原因出现错误,包含外来菌株或元数据错误,导致菌株可能并非真正适应其分离的栖息地,这使得 mGWAS 的研究结果受到干扰,无法准确揭示微生物与栖息地之间的真实关系。

为了解决这些难题,来自爱尔兰科克大学学院(University College Cork)APC 微生物组爱尔兰研究中心、微生物学院以及医学院的研究人员开展了一项关于微生物栖息地适应的研究。他们开发了一种名为 aurora(AUtochthonous, Random fOrest, Random wAlk)的新型工具,旨在更精准地识别本土菌株以及与栖息地相关的基因,同时考虑到栖息地适应性状在塑造系统发育中的潜在作用。该研究成果发表在《Genome Biology》上,为微生物研究领域带来了新的突破。


研究人员在研究过程中运用了多种关键技术方法。首先,他们使用多种工具构建数据集,如通过 Panaroo 或 Roary 获得泛基因组矩阵,利用 MAFFT 或 MUSCLE 对齐核心基因序列构建系统发育树。其次,采用随机森林、AdaBoost、逻辑回归和分类回归树(CART)等机器学习算法,对数据进行分析和处理。此外,通过模拟数据集和真实数据集相结合的方式,全面评估 aurora 工具的性能。


在研究结果部分,主要有以下发现:


  • aurora 的功能:aurora 包含 aurora_pheno () 和 aurora_GWAS () 两个主要函数。aurora_pheno () 用于识别不携带与感兴趣表型(如毒力、宿主特异性)相关因果变异的菌株,在分析宿主适应时,可区分本土菌株和外来菌株;aurora_GWAS () 则用于识别所研究表型的因果特征,若有 aurora_pheno () 的结果,会先去除被识别为错误标记的菌株再进行分析。

  • 模拟数据测试:研究人员通过四种方法创建模拟 GWAS 测试数据,模拟不同的表型适应场景。结果显示,aurora 在识别因果变异方面表现出色,尤其是在存在大量错误标记菌株的情况下,其性能优于其他常用的 mGWAS 工具。在分析具有不同因果基因分布和表型特征的模拟数据时,aurora 能稳定地识别出因果基因,而其他工具在处理某些情况时存在局限性。

  • 真实数据测试

    • 分枝杆菌属副结核分枝杆菌(Mycobacterium avium subsp. paratuberculosis,MAP):MAP 是引起反刍动物副结核病的病原体,其基因组相对稳定。研究人员利用 MAP 数据集测试 aurora 检测错误标记菌株的能力,并识别宿主适应相关基因。aurora 成功识别出错误标记的菌株,且在识别牛和羊定植因子相关基因方面表现优异,而其他工具大多无法将这些基因排在前列。

    • 鼠伤寒沙门氏菌(Salmonella enterica serovar Typhimurium):该菌是常见的食源性病原体,宿主范围广泛。研究人员通过实验数据对 aurora 和现有 mGWAS 工具进行基准测试,发现 aurora 能识别出其他工具无法识别的牛定植因子,并且通过分析确定了不同宿主相关的菌株聚类,验证了其识别的基因能更好地解释鼠伤寒沙门氏菌的宿主适应性。

    • 其他数据集:aurora 还成功应用于分析脑膜炎奈瑟菌(Neisseria meningitidis)的青霉素抗性和侵袭性、大肠杆菌(Escherichia)的肠道外毒力以及罗伊氏乳杆菌(Limosilactobacillus reuteri)和植物乳杆菌(Lactiplantibacillus plantarum)的栖息地适应性等多种表型,展示了其在不同微生物研究中的有效性。


研究结论和讨论部分指出,aurora 是一款功能强大且灵活的 mGWAS 工具,它克服了现有工具的诸多局限性,无需对因果变异的分布和表型做出假设,能有效处理 mGWAS 中的常见混杂因素。通过在模拟和真实数据集上的测试,aurora 在识别因果遗传变异方面表现出色,无论是位点效应还是谱系效应相关的变异都能精准识别。同时,aurora 还能利用机器学习算法识别并去除错误标记的菌株,提高了检测真实基因型 - 表型关联的能力。然而,aurora 也存在一些局限性,例如在表型仅由谱系效应决定时,连锁不平衡可能导致非因果变异的关联指标膨胀;当表型类别中的菌株数量不平衡时,可能会出现过采样问题;计算需求较高,运行时间受菌株数量影响较大;在识别真正的本土种群时,如果其数量远小于非适应菌株种群,可能会遇到困难。尽管如此,aurora 的出现为微生物研究领域提供了新的有力工具,有助于深入理解微生物的栖息地适应机制,推动微生物学研究的发展,为相关疾病的防控和微生物资源的利用提供了重要的理论支持和技术手段。

涓嬭浇瀹夋嵎浼︾數瀛愪功銆婇€氳繃缁嗚優浠h阿鎻ず鏂扮殑鑽墿闈剁偣銆嬫帰绱㈠浣曢€氳繃浠h阿鍒嗘瀽淇冭繘鎮ㄧ殑鑽墿鍙戠幇鐮旂┒

10x Genomics鏂板搧Visium HD 寮€鍚崟缁嗚優鍒嗚鲸鐜囩殑鍏ㄨ浆褰曠粍绌洪棿鍒嗘瀽锛�

娆㈣繋涓嬭浇Twist銆婁笉鏂彉鍖栫殑CRISPR绛涢€夋牸灞€銆嬬數瀛愪功

鍗曠粏鑳炴祴搴忓叆闂ㄥぇ璁插爞 - 娣卞叆浜嗚В浠庣涓€涓崟缁嗚優瀹為獙璁捐鍒版暟鎹川鎺т笌鍙鍖栬В鏋�

涓嬭浇銆婄粏鑳炲唴铔嬬櫧璐ㄤ簰浣滃垎鏋愭柟娉曠數瀛愪功銆�

相关新闻
    生物通微信公众号
    微信
    新浪微博

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号