编辑推荐:
为解决利用历史数据提高基因组预测(GP)模型准确性的问题,研究人员开展了水稻抽穗期(DTH)GP 模型构建研究。结果表明,纳入空间效应可提升模型性能,该研究为处理全国历史数据的 GP 模型提供新思路,助力水稻育种效率提升。
在农业领域,水稻作为全球重要的粮食作物,其育种工作至关重要。基因组预测(Genomic Prediction,GP)作为一种能提升作物育种效率的策略,已在多种作物中展现出成效。然而,在实际应用中,GP 仍面临诸多挑战。日本地域狭长,气候多样,水稻生长受多种因素影响,抽穗期(Days to heading,DTH)便是其中一个关键的农艺性状,它与水稻的种植区域和季节密切相关。但精准预测水稻抽穗期并非易事,因为其受日长、温度和遗传效应等多种因素综合作用,且以往研究在处理环境变量时存在困难,难以全面考虑所有影响因素,导致预测模型存在误差。
为了解决这些问题,来自日本国立农业和食品研究组织(National Agricultural and Food Research Organization,NARO)的研究人员 Shoji Taniguchi、Takeshi Hayashi 等人开展了一项研究。他们旨在构建一个能应用于日本多地的水稻抽穗期 GP 模型,通过引入空间效应来改进模型,探索其在提高预测准确性方面的作用。该研究成果发表在《Rice》杂志上。
研究人员在开展研究时,用到了以下几个主要关键技术方法:首先,收集了 411 个水稻品系(包括 197 个命名品种)的 DTH 数据,这些数据来自 NARO 水稻历史表型数据集的扩展版本,涵盖 1980 - 2019 年,且涉及 130 个田间试验站。同时,获取了水稻单核苷酸多态性(Single Nucleotide Polymorphism,SNP)数据集作为基因组标记数据,以及气象要素数据,包括日平均温度和日长。然后,构建了 4 种不含空间效应的线性 GP 模型(M0 - M3),并使用贝叶斯方法(假设先验分布)进行模型构建和参数估计。最后,应用空间核模型来分析 GP 模型的残差,量化空间效应的影响 。
下面来看看具体的研究结果:
- GP 模型性能:通过线性混合效应模型对 DTH 的表型方差进行分解,发现其由品系(24.9%)、年份(3.4%)、地点(48.7%)等多种因素构成。在模型拟合度方面,包含基因组和气象要素的 M2 和 M3 模型表现出色,其均方根误差(Root Mean Squared Error,RMSE)明显小于仅使用气象要素的 M0 模型和仅使用基因组标记的 M1 模型,相关系数(Pearson’s correlation coefficient,COR)则更大。在交叉验证(Cross - validation,CV)中,M3 模型在所有 CV 方案中表现最佳,M2 次之,M1 最差。
- 空间效应的改进作用:空间效应显著提升了 M1 - M3 模型的性能。在模型拟合度和 CV1、CV2 方案下,M1 - M3 模型的 RMSE 均有明显降低,COR 有所提高。空间效应能有效校正各地点的预测偏差,使预测更准确。通过对不同模型空间效应估计值的分析发现,M1 的空间效应与 M2、M3 不同,且 M2 和 M3 的空间效应存在地理模式,如在中部山区为负,在东海和近畿地区为正等。
- 空间建模的超参数:研究人员通过 CV3 方案对空间模型的超参数 κ 进行探索,发现 M1 模型中,κ 值越大,RMSE 改善越大;M2 模型在 κ = 50 左右时改善达到饱和;M3 模型的改善则很小。这表明 M1 的空间效应具有较高空间自相关性和大规模空间结构,而 M2 和 M3 的空间效应空间自相关性较小,结构更局部。
研究结论和讨论部分指出,本研究构建的 GP 模型结合空间效应,在预测水稻抽穗期方面表现良好。在 CV1 和 CV2 条件下,考虑空间效应显著提升了模型性能,有助于将水稻品系按抽穗期分组,对新培育品系的基因型预测具有实际应用价值。与以往研究相比,本研究使用的数据涵盖更多田间试验站位置,能更好地模拟多环境试验,提高水稻育种效率。
然而,研究也存在一些局限性。虽然空间效应能有效校正 GP 模型偏差,但无法完全替代原始气象数据,因为其不能反映气象随时间的波动。此外,预测未观察到的品系存在一定难度,部分用于牲畜饲料的品系对预测准确性有影响,未来需要进一步研究如何更好地预测这些品系的表型值。
总体而言,该研究首次将空间模型应用于全国历史数据,为水稻育种的基因组预测提供了新的思路和方法,对提高水稻育种效率具有重要意义,也为后续研究在其他水稻性状以及应对未来气候变化等方面提供了参考 。