机器学习辅助挖掘塞内加尔高粱抗炭疽病新基因:整合Bootstrap Forest与Boosted Tree模型揭示LRR与F-box等关键候选基因

《Functional & Integrative Genomics》:Candidate genes for anthracnose resistance in Senegalese sorghum: a machine learning-based exploration

【字体: 时间:2025年12月19日 来源:Functional & Integrative Genomics 3.1

编辑推荐:

  本研究针对高粱炭疽病抗性基因挖掘难题,利用Bootstrap Forest和Boosted Tree等机器学习算法,对塞内加尔高粱种质资源进行全基因组关联分析。研究发现5个新型抗病相关基因座(包括天冬氨酸肽酶和茉莉酸O-甲基转移酶等),并验证了3个与传统GWAS共定位的LRR和F-box基因,为高粱抗病育种提供了新靶点和机器学习辅助基因挖掘的新范式。

  
在全球粮食安全面临挑战的背景下,高粱作为第五大谷类作物,因其卓越的抗旱耐涝特性成为半干旱地区的重要粮食保障。然而,由半活体真菌Colletotrichum sublineola引起的炭疽病却可造成高达80%的产量损失,严重威胁着全球高粱生产。传统化学防治不仅面临病原菌抗药性问题,更带来环境负担,因此挖掘植物自身抗病基因成为最可持续的解决方案。
虽然全基因组关联研究(GWAS)已鉴定出多个抗病候选基因,但线性模型的局限性使其难以捕捉复杂的非加性遗传效应。为突破这一瓶颈,美国农业部农业研究服务局的Ezekiel Ahn团队创新性地将机器学习(ML)算法引入高粱抗病基因挖掘领域,在《Functional & Integrative Genomics》发表了题为"Candidate genes for anthracnose resistance in Senegalese sorghum: a machine learning-based exploration"的重要研究成果。
研究团队整合了159份幼苗期和162份八叶期塞内加尔高粱种质的公开表型数据,以及99,525个高质量SNP标记。通过比较Bootstrap Forest、Boosted Tree、支持向量机(SVM)和神经网络等多种算法,最终选定解释力最强的Bootstrap Forest和Boosted Tree模型进行深入分析。值得注意的是,由于样本量限制,研究重点从预测建模转向解释性分析,通过变量重要性评分挖掘SNP与抗病性的内在关联。
t-SNE分析揭示了发育阶段特异性抗性模式:幼苗期呈现连续表型分布,而八叶期则出现明显的抗感分化。遗传聚类分析发现24个遗传背景独特的种质,但其抗病水平与群体无显著差异,表明遗传分化未必直接对应抗性差异。
机器学习揭示发育阶段特异性抗病机制
Bootstrap Forest模型在幼苗期检测到染色体1上的显著峰区,包含S1_52723450等3个SNP,位于LRR疾病抗性蛋白RGA4编码基因(Sobic.001G272800)和F-box类似蛋白编码基因(Sobic.001G272700)之间。Boosted Tree模型则突出显示了天冬氨酸肽酶(Sobic.003G430000)和介体复合物亚基15(Sobic.007G163100)等新候选基因。八叶期分析中,两种模型共同识别出茉莉酸O-甲基转移酶(Sobic.002G058200)和LRR结构域蛋白(Sobic.006G274866)等基因,其中后者与前期GWAS结果吻合。
多模型交叉验证增强结果可靠性
相关性分析显示,Bootstrap Forest与Boosted Tree的重要性评分呈中等正相关(幼苗期r=0.47,八叶期r=0.53),而与单SNP分析效应值的相关性较弱,证实机器学习捕获了线性模型无法检测的遗传架构。组合表型分析进一步验证了F-box结构域蛋白(Sobic.006G225800)在跨发育阶段抗性中的核心作用。
讨论部分指出,LRR和F-box基因在不同分析中的重复出现强化了其在抗病过程中的关键地位。天冬氨酸肽酶的发现与植物免疫中程序性细胞死亡机制相吻合,而茉莉酸信号通路相关基因的识别为理解成熟期抗性机制提供了新视角。研究还讨论了幼苗期离体叶片与八叶期整株接种方法的差异,指出高毒力菌株FSP53在混合接种中的主导作用保障了表型数据的可比性。
该研究的创新之处在于首次系统比较机器学习与传统GWAS在高粱抗病基因挖掘中的效能,不仅验证了已知抗病基因,还发现了天冬氨酸肽酶、茉莉酸O-甲基转移酶等新型候选基因。这些基因为后续功能验证和分子标记辅助选择提供了重要靶标,将加速高粱抗病育种进程。尽管需要在更大群体中验证预测性能,但本研究成功展示了机器学习在解析复杂数量性状遗传架构中的独特优势,为作物抗病遗传研究提供了新范式。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号