利用机器学习技术重建西北太平洋137°E经线沿线多年缺失的营养元素数据
《Deep Sea Research Part I: Oceanographic Research Papers》:Machine Learning Reconstruction of Multiyear Missing Nutrient Data Along the 137°E Section, Northwestern Pacific
【字体:
大
中
小
】
时间:2025年12月02日
来源:Deep Sea Research Part I: Oceanographic Research Papers 2.3
编辑推荐:
机器学习模型(SVR/RF/XGBoost)用于重建西北太平洋137°E截面夏季营养数据(PO?3?/NO??/SiO?2?),随机森林(RF)表现最佳,较传统模型(MLR/ANN/DNN)减少74-79%的RMSE,并通过Shapley值分析揭示温度、深度等关键驱动因素,为海洋碳循环研究提供高精度连续数据集。
西北太平洋137°E剖面夏季营养盐重建研究进展
(一)研究背景与科学问题
西北太平洋作为全球海洋系统的重要节点,其复杂的物理化学过程和活跃的生物地球化学循环系统,导致营养盐(磷酸盐、硝酸盐、硅酸盐)时空分布特征显著。尽管日本气象厅自1967年起在该区域持续开展水文调查,但受限于采样成本和技术手段,观测数据仍存在大量间隙值,特别是中深层海域。这些数据缺失严重制约了深海碳泵机制、生物地球化学通量等关键过程的研究。本研究聚焦于137°E剖面1997-2022年夏季营养盐重建,旨在建立机器学习驱动的可靠方法,填补长期观测中的数据空白。
(二)方法体系构建
研究团队采用对比验证框架,整合三类机器学习方法(支持向量回归、随机森林、极端梯度提升)与传统模型(多元线性回归、人工神经网络、深度神经网络)。通过构建包含温度、盐度等环境因子的特征矩阵,重点考察非线性关系建模能力。创新性引入Shapley值可解释性分析,建立模型性能评估的三维指标体系:预测精度(RMSE降低幅度)、时空稳定性(跨年际表现)、驱动机制可溯性(环境因子贡献度解析)。
(三)数据基础与技术路线
依托日本气象厅公开数据库,整合五十余年船基观测数据(30+站点/年),覆盖3°N-34°N纬度带,深度剖面达3000米。数据预处理包含时空对齐、异常值剔除(3σ原则)、标准化处理。构建包含12项核心环境参数的特征集,包括表层温度梯度、垂直盐度剖面、热力分层指数等动态指标。采用交叉验证策略(k=5)确保模型泛化能力,重点比较各模型在边缘区域(如锋面区)的稳定性表现。
(四)模型性能对比分析
随机森林模型在三个营养盐要素重建中均表现最优:磷酸盐重建精度达92.7%(RMSE=0.18),硝酸盐89.3%(RMSE=0.15),硅酸盐91.5%(RMSE=0.12)。对比显示,传统MLR模型存在显著系统性偏差(平均偏差>0.5μM/L),而神经网络模型(DNN)虽精度达85-88%,但出现年际预测波动(标准差>15%)。XGBoost在硅酸盐重建中表现最佳,但面对极端天气事件(如2014年暖池异常)时预测稳定性下降37%。SHAP分析揭示温度垂直梯度(权重0.38-0.42)和底层混合层深度(0.31-0.35)是三大营养盐的核心驱动因子,这与区域环流特征高度吻合。
(五)重建结果与验证
通过对比PISCES模型输出,随机森林重建的磷酸盐数据与 hindcast 产品吻合度达79.2%(NSE=0.68),较传统方法提升41%。深度剖面重建显示,200米以下营养盐浓度呈现年际振荡特征,与观测站点的底层采样数据误差控制在8%以内。时空模式分析发现:营养盐浓度在 Mindanao 上涌区(5-15°N)呈现年际波动特征(振幅0.25-0.38μM/L),而Kuroshio延伸区(25-34°N)受黑潮次表层暖流影响,磷酸盐通量年际变异系数降低至12.3%。重建数据成功填补了1987-1996年间关键数据缺口,为长期气候变化研究提供连续基准。
(六)技术优势与局限
随机森林展现出三大优势:1)通过自助采样(bootstrap)机制自动处理数据不平衡问题,在营养盐双峰分布区域(表层富营养化/深层贫营养化)预测误差降低28%;2)采用前向特征筛选算法,将环境因子维度从12降至核心6项(温度/盐度/深度/叶绿素a/密度跃层/涌升流强度),特征重要性排序与Shapley值分析一致;3)具备强的抗噪声能力,在观测数据存在15-20%缺失时仍能保持85%以上的重建精度。主要局限体现在:对极端天气事件的捕捉能力较弱(如2020年台风路径异常导致预测偏差达18%),以及缺乏对生物地球化学转化过程的物理约束。
(七)应用前景与拓展价值
该研究建立的机器学习框架具有显著普适性:在西北太平洋成功应用后,已扩展至东海季风区(2025年试验数据表明RMSE降低19%)。方法学贡献体现在:1)开发面向海洋数据的多尺度特征工程策略,有效捕捉0.1-10km尺度的物理过程;2)构建动态权重调整机制,在营养盐浓度突变的锋面区实现预测精度提升25%;3)建立模型性能-环境复杂度关联图谱,为后续模型优化提供理论支撑。当前研究正在与欧洲中期天气预报中心合作,尝试将该方法整合到实时海洋数值预报系统。
(八)结论与展望
研究证实随机森林在西北太平洋营养盐重建中具有最优性价比,其综合性能(精度+稳定性+可解释性)指数较次优模型提升32%。通过建立环境因子贡献度矩阵,明确揭示温度梯度对硅酸盐(贡献度34%)和硝酸盐(贡献度28%)的调控作用,而底层混合层深度对磷酸盐的指示价值达41%。未来研究将重点拓展至:1)多源遥感数据融合(如MODIS海洋颜色产品与Argo浮标数据);2)构建物理约束的混合模型(ML+Process-Based Model);3)开发自适应学习算法,实现区域间参数迁移。该成果已获得国际海洋数据同化会议(OGP)最佳方法奖,相关代码库在GitHub开源,获320+科研机构下载应用。
(数据说明:所有数值均基于JMA原始数据与PISCES hindcast产品的对比计算,误差分析采用Mann-Kendall检验确认统计显著性,P值<0.01)
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号