编辑推荐:
为解决植物育种品种排名不确定性问题,研究人员提出基于 Bootstrapping 的秩置信区间法,该方法有效且实用。
在植物育种的大舞台上,每年植物育种家们都面临着一场关键抉择:哪些实验品种值得继续推进,在来年的土地上播种希望?他们依据产量等表型性状对品种进行排名,然而这个排名却充满了不确定性。其中一个主要原因是种植环境数量有限,而且基因型与环境的互作效应(G×E 互作)也在捣乱。在某些环境下,一个品种可能看起来表现优异,超过了它真实的遗传潜力;而另一个品种则可能被环境 “埋没”,表现欠佳,这就导致了真实的相对表现被颠倒。这种排名的不确定性给育种家们的决策带来了巨大挑战,就像在迷雾中寻找方向,难以抉择。
为了拨开这层迷雾,来自美国爱荷华州立大学(Iowa State University)的研究人员 Reyhaneh Bijari、Hanisha Vemireddy 和 Sigurdur Olafsson 开展了一项极具意义的研究。他们提出了一种新工具,即通过 Bootstrapping(自助法)来估计排名的分布,并构建近似的秩置信区间(rank confidence intervals,rank CIs),以此来捕捉因观察到的特定环境集而产生的内在不确定性。这项研究成果发表在《Heliyon》杂志上,为植物育种领域带来了新的曙光。
研究人员在开展研究时,主要运用了两种关键技术方法。一是 Bootstrapping 技术,通过对环境样本进行有放回的抽样,模拟不同的环境组合,从而得到多个自助样本,以此来估计参数和构建置信区间;二是利用了线性模型,假设植物产量的表型涉及遗传(gi)、环境(hj)和遗传 - 环境互作效应(bij),即y~ij=β+gi+hj+bij+?ij,其中β是总体平均产量,?ij~N(0,σ2)表示正态分布的噪声,以此来生成模拟数据,评估秩置信区间的性能。
研究结果如下:
- 秩置信区间的正确性:
- 超额概率和经验覆盖率:研究人员利用模拟数据,以观察到的环境数量为变量进行研究。结果显示,在大多数情况下,平均经验覆盖率都在规定水平(如α=0.8)左右或之上,并且随着观察到的环境数量m0增加而上升。当观察到的环境数量极少(如m0=5)时,经验覆盖率有时会低于规定水平;而当观察到所有环境(m0=300)时,每个秩置信区间都能覆盖真实排名,且超额概率最大。在较为现实的观察到 5 - 10% 目标环境的情况下,经验覆盖率可靠地高于规定的α=0.8,超额概率也较为稳定。
- 噪声存在时的经验覆盖率:由于实际植物育种中存在噪声,研究人员在模拟数据中添加了正态分布的噪声?ij(?~N(0,σ2)),并设置了σ∈{10,20,30}三种不同水平。结果表明,虽然有噪声时经验覆盖率会降低,但即使在高噪声情况下,经验覆盖率仍然可靠地高于置信水平α=0.8,且经验覆盖率EC和超额概率EP都较为稳定,这说明该近似秩置信区间在大量正态分布噪声存在的情况下依然有用。
- 非均匀环境样本的经验覆盖率:近似秩置信区间构建过程中假设环境是均匀抽样的,研究人员对此进行了验证。他们通过两种非均匀抽样方式进行实验,即偏向选择好环境和偏向选择差环境。结果发现,与均匀抽样相比,非均匀抽样时经验覆盖率EC和超额概率EP的值没有明显变化规律,只是标准偏差在非均匀抽样时更高,尤其是在观察环境数量最少(m0=5)的情况下。
- 大豆数据:
- 有明显优势品种的大豆实验:在第一个大豆实验中,通过与最佳线性无偏预测(Best Linear Unbiased Prediction,BLUP)回归分析对比发现,秩置信区间不仅能和 BLUP 一样识别出表现最佳的大豆品种 G4,还能在品种表现相近时提供更多信息。例如,品种 G11 和 G9 的 BLUP 置信区间几乎相同,但秩置信区间显示 G11 在排名前五的概率明显更高。此外,秩置信区间的宽度因品种而异,能反映出品种的稳定性,如 G4 和 G13 的产量优势明显,其秩置信区间较窄。
- 顶部品种表现相似的大豆实验:在第二个大豆实验中,多个品种表现相近,BLUP 分析难以确定哪个是最佳品种。而秩置信区间显示 G21 在几个表现较好的品种中排名第一的概率最高,且其置信区间最窄(1 - 6 名),表明它在多个地点表现良好;其他品种如 G8 和 G7 的置信区间较宽,排名概率也有所不同。同时,像 G19 和 G11 等品种,虽然在 BLUP 分析中排名靠后,但秩置信区间能帮助育种家发现它们成为顶级品种的概率以及稳定性差异等信息。
- 油菜籽数据:油菜籽数据的分析结果也显示,BLUP 分析预测 Bienvenu 为最佳品种,而秩置信区间表明 Glacier 排名第一的概率估计为 72%,且 Bienvenu 与 Bridger 表现几乎相同。由于 Glacier 比 Bienvenu 更稳定(此前 AMMI 分析已证实),所以秩置信区间能让研究人员更自信地选择 Glacier 作为最佳品种,这是 BLUP 分析难以直接做到的。
研究结论和讨论部分指出,基于环境重采样估计排名概率构建的近似秩置信区间,除了观察环境数量极少的情况,总体上能达到或超过理论覆盖率。该方法对零噪声和均匀环境抽样这两个假设的偏差具有一定的稳健性,只是非均匀抽样时性能的方差更大。此外,超额概率在大多数情况下较为稳定。需要注意的是,近似秩置信区间不能替代现有模型如 BLUP 或 AMMI(可加主效应和乘积交互作用模型),但能提供补充分析。在实际育种中,当需要关注品种相对表现时,该方法能捕捉因种植环境有限带来的不确定性,具有重要价值。然而,其构建置信区间的计算成本较高,可能限制其在大量品种排名中的应用。总的来说,这项研究为植物育种家提供了一种全新的、实用的分析工具,帮助他们在复杂的品种选择中做出更科学的决策,推动植物育种领域的发展。