机器学习解码细菌氧偏好性:功能基因挖掘与适应性机制新突破

【字体: 时间:2025年08月07日 来源:Genomics 3

编辑推荐:

  【编辑推荐】针对细菌氧偏好性预测难题,安徽农业大学团队开发基于基因组特征的随机森林(Random Forest)模型,在1813个细菌基因组数据中实现90.62%的预测准确率,并通过过表达实验验证SOD、SAM radical enzyme等关键基因的氧适应功能,为微生物资源开发提供新工具。

  

细菌对氧气需求的差异性(专性需氧、兼性厌氧、严格厌氧等)是微生物生态研究和工业应用的核心问题。传统方法依赖培养实验和生化分析,难以快速预测不可培养微生物的氧偏好性,更缺乏系统性识别相关功能基因的手段。这一瓶颈严重制约了环境微生物资源开发和合成生物学应用。

安徽农业大学生命科学学院的研究团队在《Genomics》发表的研究中,创新性地将机器学习与分子生物学实验相结合。通过收集1813个细菌基因组构建特征数据库,采用随机森林(Random Forest)算法建立预测模型,并运用基因过表达和生长表型分析验证预测结果。最终不仅实现90.62%的高精度预测,更发现超氧化物歧化酶(SOD)、SAM自由基酶(SAM radical enzyme)、甘氨酸裂解系统T蛋白(GCV-T)和甲酸脱氢酶(FDH)等关键蛋白结构域在氧适应中的核心作用。

关键技术包括:1)基于KEGG和Pfam数据库的基因组特征提取;2)随机森林算法模型构建与SHAP值特征重要性分析;3)大肠杆菌(Escherichia coli)过表达系统的表型验证;4)瘤胃宏基因组数据的群落氧偏好性预测。

【基因组特征筛选】

通过比较不同氧偏好性细菌的基因组差异,识别出194个显著相关的蛋白结构域,其中氧化应激相关域(如SOD)在需氧菌中显著富集,而铁硫簇组装相关域在厌氧菌中高表达。

【机器学习建模】

随机森林模型在十折交叉验证中表现最优,准确率较传统方法提升12.8%。特征重要性分析显示,Pfam编号PF00037(SOD核心域)和PF04055(SAM自由基酶)贡献度最高。

【基因功能验证】

在E. coli中过表达模型预测的top基因,实验组在富氧条件下的OD600值较对照组提高31.5%,其中含SOD域的基因使存活率提升2.3倍,证实其对氧毒性的抵抗作用。

【宏基因组应用】

对反刍动物瘤胃微生物的分析显示,83.7%的微生物为严格厌氧菌,与已知生态特征一致,证明模型在复杂群落中的适用性。

该研究首次建立基因组特征-机器学习-实验验证的研究范式,不仅为微生物氧适应机制研究提供新思路,其预测模型更可直接应用于:1)指导难培养微生物的培养条件优化;2)挖掘工业菌株的氧耐受改造靶点;3)评估环境样本的代谢功能潜力。特别值得注意的是,发现的SAM自由基酶基因可能代表全新的氧敏感修复通路,为抗氧化药物开发提供新靶点。研究人员Siqi Wan、Haida Liu等强调,该方法可扩展至其他环境适应性状研究,将显著加速不可培养微生物资源的开发利用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号