
-
生物通官微
陪你抓住生命科技
跳动的脉搏
机器学习解码细菌氧偏好性:功能基因挖掘与适应性机制新突破
【字体: 大 中 小 】 时间:2025年08月07日 来源:Genomics 3
编辑推荐:
【编辑推荐】针对细菌氧偏好性预测难题,安徽农业大学团队开发基于基因组特征的随机森林(Random Forest)模型,在1813个细菌基因组数据中实现90.62%的预测准确率,并通过过表达实验验证SOD、SAM radical enzyme等关键基因的氧适应功能,为微生物资源开发提供新工具。
细菌对氧气需求的差异性(专性需氧、兼性厌氧、严格厌氧等)是微生物生态研究和工业应用的核心问题。传统方法依赖培养实验和生化分析,难以快速预测不可培养微生物的氧偏好性,更缺乏系统性识别相关功能基因的手段。这一瓶颈严重制约了环境微生物资源开发和合成生物学应用。
安徽农业大学生命科学学院的研究团队在《Genomics》发表的研究中,创新性地将机器学习与分子生物学实验相结合。通过收集1813个细菌基因组构建特征数据库,采用随机森林(Random Forest)算法建立预测模型,并运用基因过表达和生长表型分析验证预测结果。最终不仅实现90.62%的高精度预测,更发现超氧化物歧化酶(SOD)、SAM自由基酶(SAM radical enzyme)、甘氨酸裂解系统T蛋白(GCV-T)和甲酸脱氢酶(FDH)等关键蛋白结构域在氧适应中的核心作用。
关键技术包括:1)基于KEGG和Pfam数据库的基因组特征提取;2)随机森林算法模型构建与SHAP值特征重要性分析;3)大肠杆菌(Escherichia coli)过表达系统的表型验证;4)瘤胃宏基因组数据的群落氧偏好性预测。
【基因组特征筛选】
通过比较不同氧偏好性细菌的基因组差异,识别出194个显著相关的蛋白结构域,其中氧化应激相关域(如SOD)在需氧菌中显著富集,而铁硫簇组装相关域在厌氧菌中高表达。
【机器学习建模】
随机森林模型在十折交叉验证中表现最优,准确率较传统方法提升12.8%。特征重要性分析显示,Pfam编号PF00037(SOD核心域)和PF04055(SAM自由基酶)贡献度最高。
【基因功能验证】
在E. coli中过表达模型预测的top基因,实验组在富氧条件下的OD600值较对照组提高31.5%,其中含SOD域的基因使存活率提升2.3倍,证实其对氧毒性的抵抗作用。
【宏基因组应用】
对反刍动物瘤胃微生物的分析显示,83.7%的微生物为严格厌氧菌,与已知生态特征一致,证明模型在复杂群落中的适用性。
该研究首次建立基因组特征-机器学习-实验验证的研究范式,不仅为微生物氧适应机制研究提供新思路,其预测模型更可直接应用于:1)指导难培养微生物的培养条件优化;2)挖掘工业菌株的氧耐受改造靶点;3)评估环境样本的代谢功能潜力。特别值得注意的是,发现的SAM自由基酶基因可能代表全新的氧敏感修复通路,为抗氧化药物开发提供新靶点。研究人员Siqi Wan、Haida Liu等强调,该方法可扩展至其他环境适应性状研究,将显著加速不可培养微生物资源的开发利用。
生物通微信公众号
知名企业招聘