机器学习模型的比较分析,用于填补多变量时间序列叶面湿度传感器数据中的缺失值

《Computers and Electronics in Agriculture》:Comparative analysis of machine learning models to restore gaps in multivariate time series leaf wetness sensor data

【字体: 时间:2025年11月16日 来源:Computers and Electronics in Agriculture 8.9

编辑推荐:

  本研究针对大豆田叶湿度(LW)传感器数据缺失问题,采用随机森林、深度神经网络、LSTM等单一模型及混合堆叠模型进行预测。通过交叉验证和相关性分析筛选环境参数(温度、湿度、土壤含水量及交互项),发现混合模型在训练(MSE=0.002,R2=0.963)和验证(MSE=0.113,R2=0.887)阶段均显著优于单一模型,有效提升数据完整性和农业决策准确性。

  在现代农业中,物联网(IoT)技术的应用日益广泛,它不仅改变了传统农业的运作方式,也为作物管理、病害预测和资源优化提供了新的可能性。叶面湿润度(Leaf Wetness, LW)作为影响作物健康和病害传播的重要因素,其数据的准确性与完整性对于农业决策至关重要。然而,在实际应用中,由于传感器故障、网络中断、电池耗尽、软件冲突等多种原因,LW数据常常出现缺失。这种数据缺失不仅影响模型的预测能力,还可能导致农业管理措施的偏差,进而影响作物产量和质量。因此,研究如何有效地预测和填补LW数据缺失成为当前农业技术领域的一个重要课题。

为了应对这一挑战,研究者们尝试了多种方法,包括传统的统计模型和新兴的机器学习(Machine Learning, ML)方法。传统方法如多重线性回归(Multiple Linear Regression, MLR)和自回归积分滑动平均(Autoregressive Integrated Moving Average, ARIMA)等,虽然在某些情况下表现出良好的性能,但它们在处理复杂的非线性关系和高维数据时往往显得力不从心。相比之下,机器学习模型因其强大的非线性拟合能力和对复杂模式的捕捉能力,逐渐成为解决LW数据缺失问题的首选方案。

本研究采用了一系列机器学习模型,包括随机森林(Random Forest, RF)、支持向量回归(Support Vector Regression, SVR)、K近邻(K-Nearest Neighbors, KNN)、梯度提升(Gradient Boosting, GB)、长短期记忆网络(Long Short-Term Memory, LSTM)、深度神经网络(Deep Neural Network, DNN)以及一种混合堆叠模型。通过交叉验证和相关性分析,研究者们对多个环境参数进行了筛选,以确定哪些变量和它们之间的相互作用对LW的预测具有显著影响。这些参数包括温度(T)、湿度(H)、土壤湿度(SM)、降雨(R)、降雨事件(RE)以及它们的交互项(如R×T、R×H、R×SM)等。

在模型选择和优化过程中,研究者们发现,虽然随机森林模型在训练阶段表现出较高的精度,具有较低的均方误差(Mean Squared Error, MSE)和较高的决定系数(R2)以及 Kling-Gupta 效率(KGE),但它在捕捉LW峰值方面存在一定的局限性。这表明,尽管随机森林能够有效地处理数据中的非线性关系,但在某些特定的动态变化场景下,其表现仍需进一步提升。相比之下,深度神经网络(DNN)和融合正则化深度神经网络(Fused Regularized DNN, FDNN)在训练数据集上表现出中等的MSE值,但其R2和KGE值较为满意,能够较为准确地预测LW的变化趋势。然而,DNN和FDNN在训练阶段对LW值的估计略显低估,这可能与模型对数据分布的拟合能力有关。

在测试数据集上,FDNN模型的表现优于随机森林和DNN模型,显示出更强的泛化能力。而混合堆叠模型则在训练和验证阶段均表现出色,其MSE值显著降低,R2和KGE值明显提高。这一结果表明,通过结合不同模型的优势,混合堆叠模型能够更有效地处理LW数据中的复杂模式和非线性关系,从而提升预测的准确性。这种集成方法不仅克服了单一模型在某些方面的不足,还能够适应不同环境条件下的数据变化,为农业决策提供更加可靠的数据支持。

LW数据的缺失问题不仅影响数据的完整性,还可能对农业管理的决策产生深远影响。例如,在预测病害发生时,如果LW数据存在较大的缺失,可能会导致对病害传播风险的误判,从而影响防治措施的及时性和有效性。此外,灌溉计划的制定也需要依赖于准确的LW数据,以确保作物在最佳的水分条件下生长,避免过度或不足的灌溉导致资源浪费或作物受损。因此,提升LW数据填补的准确性对于实现精准农业具有重要意义。

研究者们还指出,LW数据的缺失通常与传感器的运行状态和环境因素的变化密切相关。例如,降雨事件(RE)对LW的影响尤为显著,因为降雨会直接增加叶面的湿润度,而降雨后蒸发过程的快速变化又会导致湿润度的下降。这种动态变化使得LW数据的预测变得复杂,传统的线性模型难以捕捉到这种非线性变化的模式。因此,采用能够处理复杂模式和非线性关系的机器学习模型成为一种必要的选择。

此外,LW数据的收集和分析还涉及到对作物冠层内环境的监测。由于作物冠层的结构和特性(如叶片形状、角度、纹理、疏水性等)会影响叶面湿润度的分布,因此在进行LW数据填补时,需要考虑这些因素对数据的影响。这不仅要求模型能够处理多变量之间的复杂关系,还要求模型具备一定的空间适应能力,以确保填补的数据能够真实反映作物冠层内的湿润度状况。

在实际应用中,物联网技术的引入使得LW数据的实时监测成为可能。通过将传感器连接到物联网数据记录器,研究人员可以实时获取LW数据,并利用机器学习模型进行数据填补和预测。这种实时监测和预测能力对于农业管理具有重要的价值,它可以帮助农民在最佳时机进行灌溉和病害防治,从而提高作物产量和质量。然而,物联网系统的数据收集过程仍然面临诸多挑战,如传感器故障、数据传输延迟、电池寿命限制等,这些问题都需要通过技术手段加以解决。

为了提高LW数据填补的准确性,研究者们采用了一种混合堆叠模型,该模型结合了随机森林和深度神经网络的优势,并通过引入L1和L2正则化技术(如Dropout)来防止模型过拟合。这种混合模型不仅能够处理数据中的非线性关系,还能够适应不同环境条件下的数据变化,从而提高预测的稳定性。此外,通过交叉验证和相关性分析,研究者们对多个环境参数进行了筛选,以确保模型在训练和验证阶段都能获得较高的预测精度。

在模型评估过程中,研究者们发现,混合堆叠模型在训练和验证阶段均表现出显著的优势。其MSE值远低于其他模型,R2和KGE值也更高,这表明该模型在捕捉LW数据的复杂模式和动态变化方面具有更强的能力。这种集成方法的成功应用不仅为LW数据填补提供了一种新的解决方案,也为其他农业数据的缺失填补提供了借鉴。通过这种方式,研究人员能够更有效地利用现有的农业数据,为精准农业提供更加可靠的支持。

LW数据的准确预测对于农业管理具有重要的意义。一方面,它可以帮助农民更好地了解作物生长环境,从而制定更加科学的灌溉和施肥计划;另一方面,它还能为病害预测提供关键的数据支持,帮助农民在病害发生前采取有效的防治措施。通过提升LW数据填补的准确性,研究人员可以为农业决策提供更加全面和可靠的信息,从而提高农业生产效率,减少资源浪费,促进可持续农业发展。

在实际应用中,LW数据的填补不仅需要考虑模型的性能,还需要考虑数据的可用性和数据收集的连续性。例如,在某些情况下,由于传感器故障或网络问题,LW数据可能会出现较大的缺失。这时,研究者们需要结合多种数据来源和预测方法,以确保填补后的数据能够真实反映实际的环境状况。此外,还需要考虑不同作物品种对LW的响应差异,以确保模型在不同作物上的适用性。

综上所述,本研究通过引入多种机器学习模型,并采用混合堆叠方法,成功提升了LW数据填补的准确性。这一成果不仅为农业数据的缺失填补提供了一种新的解决方案,也为精准农业的发展奠定了坚实的基础。未来的研究可以进一步探索如何优化这些模型的参数设置,以提高其在不同环境条件下的适应能力。同时,还可以结合更多的环境参数和作物特性,以提升模型的预测精度。此外,随着物联网技术的不断发展,如何提高传感器数据的稳定性和可靠性,也是值得进一步研究的方向。通过不断改进和优化这些技术,农业管理者可以更好地利用LW数据,实现更加科学和高效的作物管理。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号