为了解决这些问题,研究人员在《Journal of Cotton Research》期刊上发表了题为《Comparative assessment of statistical and machine learning models for predicting cotton yield in rainfed conditions》的论文。通过一系列深入的研究,他们得出结论:在预测棉花产量方面,机器学习模型,尤其是人工神经网络(ANNs),表现优于传统的统计模型。ANNs 能够更好地考虑不同生长阶段天气因素对产量形成的交互影响,这一成果对于指导棉花种植管理和政策制定具有重要意义。
RF 模型:随机森林(RF)模型在预测棉花产量时,不同地区的表现有所不同。在 F1 和 F2 阶段,RMSE 和 MAPE 值在不同地区有较大差异。达尔瓦德和维贾亚普拉地区的偏差较小,预测相对准确;而哈韦里、卡拉布尔吉和科帕尔地区偏差较大,尤其是在 F1 阶段。这表明 RF 模型在某些地区能够较好地预测棉花产量,但在其他地区还需要进一步调整和优化。
ANN 模型:人工神经网络(ANN)模型在众多模型中脱颖而出。在 2020 年和 2021 年的验证中,除了卡拉布尔吉在 F1 阶段的部分数据外,大多数地区的预测误差都在可接受范围内,即 ±10% 以内。从模型评估指标来看,RMSE、nRMSE 值较低,EF 值较高,这表明 ANN 模型在预测棉花产量方面具有较高的准确性和可靠性,是一种更适合用于棉花产量预测的模型。
模型间的比较:研究人员对不同模型在 2023 年 F1 和 F2 阶段的预测结果进行了比较。SMLR 模型在不同地区的值有所差异,部分地区表现较好,部分地区则相对较弱。ARIMAX、LASSO、RF 和 ANN 模型的预测产量范围各不相同,但总体来看,ANN 模型在多个地区的预测表现更优。通过比较不同模型预测的平均产量与 1990 - 2021 年的平均产量,发现 2023 年各模型预测的平均产量均高于历史平均水平。
主要气象因素对棉花产量的影响:由于 ANN 模型在预测方面的出色表现,研究人员进一步利用它来评估影响棉花产量的重要气象因素。结果发现,不同地区影响棉花产量的关键气象因素存在差异。在营养生长阶段(F1),一些地区如达尔瓦德和维贾亚普拉,最高温度()和早晨相对湿度( II)的相互作用对产量影响较大;而在卡拉布尔吉、贝拉尔加维和迈索尔等地区,最低温度()和降雨量()的相互作用更为关键。在生育中期(F2),迈索尔和赖久尔地区,和的未加权相互作用影响产量;达尔瓦德和巴拉里地区,则是和的加权相互作用起主要作用。这些差异充分说明了气象因素对棉花产量的影响在不同地区和生长阶段各不相同。