《Journal of Arid Environments》:Modeling dust storms using machine learning and deep learning techniques
编辑推荐:
沙尘暴预测模型研究显示随机森林最优,环境驱动因素排序及区域化建模框架提出。
穆罕默德·卡泽米(Mohammad Kazemi)| 马尔齐耶·雷扎伊(Marzieh Rezaei)| 塞迪格赫·穆萨伊(Sedigheh Mousaei)| 纳尔吉斯·卡里米内贾德(Narges Kariminejad)
伊朗霍尔莫兹甘大学(University of Hormozgan)霍尔莫兹研究与发展中心(Hormoz Studies and Research Center),班达尔阿巴斯(Bandar Abbas)
摘要
沙尘暴在干旱地区对环境和健康构成重大威胁,因此需要准确的建模来制定有效的缓解策略。本研究采用了十三种机器学习(ML)和深度学习(DL)模型,以识别易受沙尘影响的区域,并评估各种环境因素对沙尘暴的影响。分析了一组变量,包括蒸散量(ET)、气温、地表温度、植被指数、平均降水量(Pr)、土壤湿度以及六个干旱指数(标准化降水指数(SPI)、植被健康指数(VHI)、植被状况指数(VCI)、温度状况指数(TCI)、土壤植被指数(SVI)和帕尔默干旱严重程度指数(PDSI),以气溶胶光学厚度(AOD)作为目标变量。分析结果显示,在该研究区域内,基于树的ML模型优于DL模型,这可能是由于区域规模和数据集特征的原因。随机森林(Random Forest,RF)成为表现最出色的模型,在回归(R2 = 0.96,RMSE = 0.01,MAE = 0.01)和分类任务(关键成功指数 = 0.70,召回率 = 0.76)中均取得了优异的成绩,空间检测沙尘源的准确率为85%,偏差值为1.038。在DL模型中,人工神经网络(Artificial Neural Network,ANN)也表现出了竞争力。变量重要性分析表明,温度、降水量和蒸散量是最具影响力的预测因子,其次是土壤湿度和PDSI。这些发现为沙尘易发区域的制图提供了良好的框架,并突显了基于树的ML模型在区域尺度研究中的优势。
引言
沙尘暴是干旱和半干旱地区最严重的环境问题之一,对空气质量、公共卫生和社会经济活动有深远影响(Goudie, 2014)。因此,准确预测沙尘暴对于制定有效的缓解策略至关重要。近年来,遥感数据与先进计算算法的结合为沙尘建模开辟了新的途径(Alobaidi et al., 2023)。GEE云计算平台已成为一个强大的工具,能够高效处理大规模地理空间数据,这对于全面的环境监测和分析至关重要(Yu et al., 2015)。
机器学习和深度学习的应用彻底改变了大气现象的预测建模,包括沙尘暴(Reichstein et al., 2019a, Reichstein et al., 2019b; Liu et al., 2022)。Alshammari等人(2022)的研究系统地证明了非线性模型(如RF)在利用气象数据预测沙尘事件方面的优越性。这些集成模型和深度学习在捕捉温度、降水量、土壤湿度和干旱指数等环境因素之间的复杂非线性相互作用方面表现出色,这些因素共同影响沙尘的排放和传输动态。
沙尘源识别和传输建模的最新进展强调了结合卫星观测和地面测量的多尺度方法的重要性。Ginoux等人(2012)和Parajuli等人(2019)的研究表明,沙尘排放热点与特定的地貌特征和土地利用模式密切相关,尤其是在地形复杂的地区,如中东地区。Yu等人(2020)的研究表明,将高分辨率气象数据与机器学习结合使用可以显著提高沙尘预测模型的准确性,特别是在陆海相互作用调节沙尘传输模式的沿海地区。
尽管取得了这些进展,但在沿海干旱地区对多种先进机器学习和深度学习模型进行比较评估方面仍存在显著的研究空白。大多数现有研究仅关注有限的模型比较或特定的地理背景,对于像波斯湾地区这样的复杂沿海环境,最佳建模方法仍不确定(Parajuli and Zender, 2024)。然而,本研究专注于伊朗霍尔莫兹甘省的沙尘暴建模。选择该地区是因为其独特的沿海-干旱特征以及高频率的沙尘事件,该地区位于阿曼海北部海岸。通过利用GEE的计算能力,我们获取了一组环境变量,包括气象参数、植被指数和专门的干旱指标。
本研究的核心目标是:(1)对十三种机器学习和深度学习模型进行严格的比较评估;(2)确定影响AOD的最具影响力的环境变量;(3)为该地区制作准确的沙尘易发地图。本研究为复杂沿海环境中的沙尘预测提供了传统模型和基于Transformer模型的比较。
研究区域
研究区域位于伊朗南部的霍尔莫兹甘省(图1)。该省位于阿曼海北部海岸,具有干旱气候和频繁的沙尘活动。地图上标出了用于模型验证和准确性评估的地面控制点。多尺度地图的使用(通过不同的地图比例尺显示)允许详细分析沙尘源及其空间分布。
模型评估
通过对13种机器学习和深度学习模型进行AOD预测的评估,随机森林(RF)在所有指标上均表现出色,实现了最高的R2(0.96)、最低的误差率(RMSE:0.01,MAE:0.01)和最强的相关性(Coor:0.98)。集成方法,特别是XGBoost和CART,也取得了有竞争力的结果,R2值超过0.91,而基本的机器学习模型(KNN、LightGBM)和深度学习模型(ANN、MLP)的表现较为中等,R2值在0.86到0.88之间。值得注意的是,基于树的模型
讨论
随机森林(RF)模型在模拟沙尘暴时取得了85%的准确率和超过87%的R2,这表明了一个关键见解:在处理地球物理数据时,更简单的基于树的集成模型通常优于更复杂的深度学习架构。这可能是因为它们的结构在捕捉非线性关系和保持泛化能力之间取得了有效的平衡,避免了过拟合
结论
本研究通过将GEE云计算平台与先进的机器学习和深度学习相结合,成功建立了霍尔莫兹甘省的沙尘建模框架。对十三种机器学习和深度学习模型的系统评估显示,基于树的集成模型表现最佳,其中随机森林(RF)在回归(R2 = 0.96,RMSE = 0.0102)和分类任务(CSI = 0.70,准确率 = 85%)中均取得了优异的结果。变量重要性分析揭示了
作者贡献声明
穆罕默德·卡泽米(Mohammad Kazemi): 软件、资源、项目管理。马尔齐耶·雷扎伊(Marzieh Rezaei): 可视化、验证、监督。塞迪格赫·穆萨伊(Sedigheh Mousaei): 方法论、正式分析、数据管理。纳尔吉斯·卡里米内贾德(Narges Kariminejad): 写作——审稿与编辑、初稿撰写、可视化、验证。
伦理批准声明
不适用。本研究未涉及人类参与者或动物。
原创性声明
我们特此确认:
-该手稿此前未发表
-未在其他地方考虑发表
-其发表已获得所有作者的批准
-如果被接受,未经版权所有者书面同意,不会以相同形式在其他地方发表
利益冲突声明
作者声明没有已知的财务利益或个人关系可能影响本文所述的工作。