编辑推荐:
在农业生产中,大豆黄花叶病毒(SYMV)严重影响大豆产量。研究人员开展了混合与个体模型预测 SYMV 发病率的对比研究。结果显示,PCA - SMLR - ANN 模型预测效果最佳。这为大豆病害管理提供了重要依据。
在全球农业领域,大豆作为重要的油籽作物,其产量和质量关乎粮食安全与经济发展。然而,大豆黄花叶病毒(Soybean Yellow Mosaic Virus,SYMV)却如同潜伏在田间的 “杀手”,严重威胁着大豆的生长。SYMV 主要由粉虱传播,其传播和发病与温度、湿度、降雨、日照时长等天气条件密切相关 。例如,7 月的高降雨量、8 月的干燥环境,以及特定的温湿度范围,都为病毒的滋生和传播创造了有利条件。随着全球气候变暖,预计每升温 1℃,与害虫相关的农业损失将增加 10 - 25%,这使得 SYMV 的防控形势更加严峻。
在以往的研究中,虽然已经知晓天气因素对 SYMV 的影响,但在预测该病毒发病率方面,仍面临诸多挑战。传统的统计模型,如多元线性回归(Multivariate Linear Regression,MLR),难以捕捉天气变量与疾病发生之间复杂的相互作用;而先进的机器学习(Machine Learning,ML)技术,包括支持向量机(Support Vector Machines,SVMs)、人工神经网络(Artificial Neural Networks,ANNs)等,尽管在预测精度上有所提升,但不同模型的效果参差不齐。此外,在众多影响疾病传播的因素中,选择最合适的预测模型成为一大难题。
为了攻克这些难题,来自 G.B. Pant 农业技术大学的研究人员开展了一项极具意义的研究。他们旨在通过开发和评估多种混合与个体模型,找出预测 SYMV 发病率的最佳模型,从而为大豆种植中的病害管理和作物保护策略提供有力支持。该研究成果发表在《Scientific Reports》上,为农业领域的病害预测开辟了新的思路。
研究人员在研究过程中,运用了多种关键技术方法。首先,收集了 2001 - 2020 年大豆病害严重程度的时间序列数据以及对应的天气数据。然后,通过计算加权和未加权天气指数,将原始天气数据进行处理。接着,采用主成分分析(Principal Component Analysis,PCA)对数据进行降维,以解决天气指数之间的多重共线性问题。最后,运用逐步多元线性回归(Stepwise Multiple Linear Regression,SMLR)、ANN、最小绝对收缩和选择算子(Least Absolute Shrinkage and Selection Operator,LASSO)、岭回归(Ridge Regression,RR)、弹性网络(Elastic Net,ELNET)等多种多元分析方法构建预测模型。
模型性能分析
- SMLR 和 PCA - SMLR 模型:SMLR 模型基于天气指数进行预测,其决定系数(R2)为 0.81,校准阶段的均方根误差(RMSE)为 27.65,验证阶段为 119.88,标准化均方根误差(nRMSE)在验证阶段高达 47.72% ,该模型在校准和验证阶段表现不稳定。而 PCA - SMLR 模型的R2为 0.85,虽然在验证阶段也存在R2下降和误差增加的情况,但整体拟合效果优于 SMLR 模型。
- ANN 和 PCA - ANN 模型:ANN 模型表现出色,校准阶段R2达到 1.00,RMSE 为 5.71,验证阶段R2为 0.99,RMSE 为 17.12,nRMSE 在验证阶段为 6.82% 。PCA - ANN 模型进一步优化,校准阶段R2为 0.99,RMSE 为 2.77,验证阶段R2为 1.00,RMSE 为 9.21,nRMSE 在验证阶段为 3.67% ,明显优于 ANN 模型。
- LASSO 和 PCA - LASSO 模型:LASSO 模型的R2为 0.97,校准阶段 RMSE 为 12.99,但验证阶段 RMSE 升至 118.53,nRMSE 在验证阶段为 47.19% 。PCA - LASSO 模型R2为 0.84,在验证阶段同样出现R2下降和误差增加的情况,且 LASSO 模型对该数据的拟合效果更好。
- RR 和 PCA - RR 模型:RR 模型校准阶段R2为 0.90,RMSE 为 26.68,验证阶段R2为 0.84,RMSE 为 108.47,nRMSE 在验证阶段为 43.18% ,在验证阶段表现较差。PCA - RR 模型校准阶段R2为 0.93,RMSE 为 26.88,但验证阶段R2仅为 0.01,RMSE 为 115.36,在不同阶段表现差异较大。
- ELNET 和 PCA - ELNET 模型:ELNET 模型校准阶段R2为 0.90,RMSE 为 26.68,验证阶段R2为 0.84,RMSE 为 108.47,nRMSE 在验证阶段为 43.18% 。PCA - ELNET 模型校准阶段表现优秀,R2为 0.95,RMSE 为 15.22,但验证阶段R2为 0.15,RMSE 为 118.23,整体表现不如 ELNET 模型。
- SMLR - ANN 和 PCA - SMLR - ANN 模型:SMLR - ANN 模型校准阶段R2为 0.97,RMSE 为 11.74,验证阶段R2为 0.96,RMSE 为 5.11,nRMSE 在验证阶段为 2.22% ,表现出色。PCA - SMLR - ANN 模型更是表现卓越,校准阶段R2为 1.00,RMSE 为 5.27,验证阶段R2为 0.99,RMSE 为 1.59,nRMSE 在验证阶段为 0.76% ,是所有模型中预测效果最佳的。
研究结论与讨论
综合各项指标,研究人员得出结论:PCA - SMLR - ANN 模型在预测大豆病害严重程度方面表现最为出色,其排名领先于其他模型,具体排名为:PCA - SMLR - ANN ≈ PCA - ANN ≈ SMLR - ANN ≈ ANN > PCA - ELNET > PCA - Ridge > ELNET ≈ RR > PCA - LASSO > LASSO > PCA - SMLR ≈ SMLR。这一结论表明,混合模型在预测大豆病害严重程度方面具有显著优势,尤其是结合了 PCA、SMLR 和 ANN 的模型,能够更好地捕捉天气指数与病害之间的复杂关系,提高预测的准确性。
该研究成果对于农业生产具有重要意义。准确的病害预测模型可以帮助农民及时采取防控措施,减少因 SYMV 造成的经济损失;同时,也为政策制定者制定科学的农业政策提供了依据,有助于推动农业病害预测方法的发展,提升农业生产的可持续性。然而,研究也存在一定的局限性,如数据集主要来自特定地区,可能无法完全适用于其他地区;模型依赖历史天气数据,难以应对环境的突然变化等。未来的研究可以进一步拓展数据集,纳入实时天气监测、遥感数据和大豆抗病基因信息,以提高模型的普适性和准确性,更好地服务于农业生产。