编辑推荐:
在植物育种领域,基因组选择(GS)已从理论走向实践,但单阶段模型面临计算挑战,两阶段模型存在假设误差。研究人员开展了优化全效两阶段模型的研究,结果表明该模型在增强设计中表现更优,还提供了开源代码。这有助于推动 GS 在植物育种中的应用。
在植物育种的发展历程中,基因组辅助育种从曾经遥不可及的理论设想,逐渐走进现实应用。基因组选择(GS)技术借助密集的遗传标记来预测植物或动物的基因组育种值(GEBV),成为了现代育种的关键手段。然而,在实际应用中,GS 的分析方法面临诸多挑战。单阶段模型虽能全面考虑方差协方差结构,实现全效分析,但因其高维系数矩阵求逆的计算复杂度呈三次方增长,在处理大规模数据时困难重重,就像一辆动力强大却在狭窄道路上难以施展的重型卡车。两阶段模型虽因简单高效受到青睐,先计算调整后的基因型均值,再预测 GEBV,但它通常假定调整后均值的误差相互独立,这一近似处理忽略了估计误差之间的相关性,在面对不平衡设计时,其假设的独立同分布残差无法准确反映实际的估计误差方差(EEV),就如同给精密仪器安装了不匹配的零件,难以精准运行。
为了解决这些问题,来自西班牙马德里理工大学(Universidad Politécnica de Madrid)和西班牙国家农业与食品研究与技术研究所(Instituto Nacional de Investigación y Tecnología Agraria y Alimentaria)的研究人员 Javier Fernández-González 和 Julio Isidro y Sánchez 开展了深入研究。他们致力于优化全效两阶段模型,并利用开源软件实现更广泛的应用。该研究成果发表在《Plant Methods》上,为植物育种领域带来了新的突破和希望。
研究人员采用了多种关键技术方法。首先,利用模拟数据集进行研究,这些数据集基于燕麦的经验基因型信息,模拟了多种效应,包括固定截距、加性基因型效应、非加性基因型效应、环境效应、地块空间效应和残差等。通过调整参数,获得了不同遗传力场景的数据。同时,设置了随机完全区组设计(RCBD)和增强设计两种实验设计,每种设计都进行多次重复,以确保实验结果的可靠性。在模型构建方面,使用了 Sommer R 包拟合多种模型,包括单阶段模型(SS)和五种不同的两阶段模型,如未加权模型(UNW)、将 EEV 作为残差协方差矩阵的模型(Full_Res、Diag_Res)以及将 EEV 作为随机效应协方差矩阵的模型(Full_R、Diag_R),并对这些模型的性能进行比较。
研究结果如下:
- 模拟结果:
- 模型准确性:在不同实验设计和遗传力水平下,对各种模型的预测准确性进行评估。结果显示,增强设计的模型准确性显著高于随机完全区组设计(RCBD)。例如,单阶段模型在增强设计下,仅考虑加性效应时比 RCBD 高出 8.8%,考虑加性和非加性效应时高出 7.1%。同时,包含非加性效应的模型预测准确性更高。在所有模型中,单阶段模型(SS)通常表现最佳,但在 RCBD 且无加性效应的场景下,Full_R、Diag_R 和 UNW 表现更优。总体上,模型准确性从高到低依次为 SS、Full_R、Diag_R、UNW、Full_Res、Diag_Res12。
- 方差成分估计:研究人员还分析了不同模型对方差成分估计的准确性,结果表明,增强设计且包含加性和非加性效应的模型,其方差成分估计的均方根误差(RMSE)最低。一般来说,预测准确性较低的模型,在方差估计中的误差也较高。例如,将 EEV 放在残差中的模型(Full_Res、Diag_Res)在增强设计和仅含加性效应的模型中,方差估计的 RMSE 较高3。
- 计算时间:计算时间方面,单阶段模型(SS)最慢,这是由于其需要同时对多个环境进行空间分析。在两阶段模型中,UNW 最快,全效两阶段模型比 UNW 慢 0 - 85%。总体而言,Full_R 模型在性能和速度之间达到了较好的平衡4。
- StageWise 复制与开源软件:研究人员使用开源软件(lme4、Sommer R 包)对基于 ASReml 的 StageWise 包进行复制,比较两者的结果。在简单模型中,开源软件与 ASReml 得到的基因型最佳线性无偏估计(BLUEs)、基因型最佳线性无偏预测(BLUPs)和方差成分相似。但在涉及基因型与环境互作(GxE)和多性状分析的复杂模型中,两者存在差异。例如,在基因型与环境互作模型中,预测未观察位置时,两者结果相关性仅为 0.0556。
研究结论和讨论部分指出,全效两阶段模型在增强设计中的表现明显优于随机完全区组设计,随着基因组选择对稀疏设计需求的增加,该模型有望得到更广泛的应用。在实际应用中,如果计算时间允许,单阶段模型(SS)是最佳选择;若计算资源有限,Full_R 模型因其良好的性能、合理的计算成本和高场景一致性,是较为推荐的两阶段模型。同时,研究人员通过开源软件实现了全效两阶段模型的应用,为该技术的广泛推广提供了可能。此外,研究还发现,采用稀疏设计并结合全效模型,有望提高遗传增益。例如,从 UNW 模型转换到 Full_R 模型,经过五个选择周期,遗传增益预计可提高 13.80%。这一研究成果为植物育种提供了更高效、精准的方法,有助于加速培育优良品种,推动植物育种领域的发展,在提高农作物产量和质量方面具有重要的现实意义。