
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于G2PSE堆叠集成的全基因组选择方法
【字体: 大 中 小 】 时间:2025年07月31日 来源:《中国农业科学》
编辑推荐:
摘要: 【目的】 全基因组选择(genomic selection,GS)是一种通过全基因组标记信息预测个体表型或遗传值的核心技术,在农业育种和遗传研究中具有重要的理论价值和实践意义
摘要:
【目的】 全基因组选择(genomic selection,GS)是一种通过全基因组标记信息预测个体表型或遗传值的核心技术,在农业育种和遗传研究中具有重要的理论价值和实践意义。然而,高维特征冗余和非线性关系建模是全基因组选择中的关键挑战。提出一种从基因型到表型的堆叠集成模型(genotype to phenotype stacking ensemble,G2PSE),旨在提高预测精度和泛化能力,为高维基因组数据分析提供高效的解决方案。【方法】 构建G2PSE堆叠集成模型框架,综合应用十折交叉验证、集成学习、特征选择(LAR算法)和特征增强策略。模型采用随机森林(RF)、支持向量回归(SVR)和梯度提升回归(GBR)作为基学习器,并以普通最小二乘回归(OLSR)作为元学习器,同时,评估随机森林、支持向量回归和神经网络等元学习器对模型性能的影响。G2PSE模型包含3种核心子模型:(1)全特征堆叠集成(AFSE),充分利用所有SNP特征;(2)LAR特征堆叠集成(LFSE),通过特征选择减少冗余信息,提升泛化能力;(3)LAR特征增强堆叠集成(LFESE),结合特征选择与增强策略,在高维数据环境中优化预测能力。探讨3种特征增强变体(AFESE、HFESEⅠ、HFESEⅡ)的性能。最终,模型在小麦、大豆、罗非鱼3个物种的多性状数据集上进行试验评估,并进一步利用Pepper203数据集进行独立测试集评估,验证模型的鲁棒性。【结果】 G2PSE模型在皮尔逊相关系数(PCC)和平均绝对误差(MAE)2项指标上显著优于传统方法和单一机器学习模型。3种核心子模型中,LFESE通过结合特征选择与增强策略表现最佳,LFSE通过特征选择减少了冗余信息并增强了泛化能力,而AFSE在全面捕获基因型全局信息方面具有显著优势。此外,3种特征增强变体模型进一步验证了特征质量相较于特征数量对提升预测性能的重要性。试验还表明,在元学习器选择中,线性回归模型的表现最佳,而在计算效率上,LFESE和LFSE子模型展示了较为均衡的性能。且合理的特征选择阈值对模型性能至关重要,其中,低维数据集的最优阈值为10%—20%,而高维数据集的最优阈值为1%。最后,在独立测试集上的评估证明LFESE子模型具有最佳的泛化能力。【结论】 G2PSE模型通过集成学习、特征选择与增强策略显著提升了全基因组选择的预测性能。