利用机器学习构建印度洋长期高分辨率表层 pCO2改进数据产品,助力海洋碳循环研究

【字体: 时间:2025年04月06日 来源:Scientific Data 5.8

编辑推荐:

  为解决区域海洋模型模拟表层 pCO2存在偏差、观测数据时空分布有限的问题,研究人员开展利用机器学习算法改进印度洋表层 pCO2数据产品的研究。结果显示改进产品精度提升约 40%,添加气候学偏差效果更佳,有助于准确估算海气 CO2通量。

  在地球的生态系统中,海洋犹如一个巨大的 “碳库”,对全球气候起着至关重要的调节作用。其中,海洋表层二氧化碳分压(pCO2)是衡量海洋吸收和释放二氧化碳能力的关键指标。然而,自工业革命以来,人类活动如砍伐森林、燃烧化石燃料等,使得大气中二氧化碳含量急剧上升,这给准确评估海洋在全球碳循环中的作用带来了巨大挑战。
在印度洋地区,这里生活着近 30% 的世界人口,人类活动对海洋环境影响巨大。同时,该地区复杂的地理和气候条件,如北印度洋大量河流淡水注入、季风引起的季节性洋流反转以及高浓度气溶胶沉积等,都严重影响着其碳循环。此外,像厄尔尼诺 - 南方涛动(ENSO)和印度洋偶极子(IOD)等气候事件,也会干扰印度洋地区的 pCO2和 pH 值变化。

为了深入了解海洋在全球碳循环中的作用,以及其对气候变化的响应,准确估算海洋表层 pCO2至关重要。但目前,区域海洋模型在模拟海洋 pCO2时,常因无法准确描述小尺度过程和模型参数化存在不确定性,导致模拟结果出现偏差。而实地观测数据在时空分布上又十分有限,尤其是在印度洋地区,这使得基于观测的模型预测难以得到有效验证和改进,进而影响了对海洋 pCO2的准确估算。

为了解决这些问题,印度国家海洋信息服务中心(Indian National Centre for Ocean Information Services)的研究人员 Prasanna Kanti Ghoshal、A.P. Joshi 和 Kunal Chakraborty 开展了一项重要研究。他们利用机器学习算法,对 1980 - 2019 年印度洋地区高分辨率(1/12°)的 INCOIS - BIO - ROMS 模型模拟的表层 pCO2(pCO2model)偏差进行校正,最终构建出了改进的表层 pCO2数据产品。该研究成果发表在《Scientific Data》上,为海洋碳循环研究提供了关键的数据支持,有助于更准确地评估海气 CO2通量,识别印度洋中 CO2的源(向大气释放 CO2)和汇(从大气吸收 CO2)区域,对理解印度洋酸化与气候变化的关系具有重要意义。

在研究过程中,研究人员运用了多种关键技术方法。首先,他们将印度洋划分为四个子区域,从不同来源获取 pCO2观测数据(pCO2obs),包括 Surface Ocean CO2 Atlas(SOCAT)和印度科学考察航次(SAS)数据,并从 INCOIS - BIO - ROMS 模型提取相关海洋状态变量数据。接着,使用 Scikit - Learn 模块将数据按 80:20 比例划分为训练集和测试集,采用 10 折交叉验证技术,运用 XGBoost 算法进行模型训练。最后,通过类似自举重采样的方法量化预测不确定性,并生成改进的 pCO2数据产品。

下面详细介绍研究结果:

  1. 数据采集与处理:研究人员从 SOCAT 和 SAS 获取 pCO2obs数据,发现不同区域观测数据的时间分布存在差异,如阿拉伯海 5 - 9 月观测较多,孟加拉湾 2 - 5 月观测较多,但整体数据在印度洋地区空间覆盖良好。同时,从 INCOIS - BIO - ROMS 模型提取海洋状态变量(如表面温度 SST、表面盐度 SSS、混合层深度 MLD 等)和 pCO2model数据,对部分数据进行对数变换和异常值处理,以满足机器学习模型的要求。
  2. 模型训练与优化:利用 XGBoost 算法训练模型预测 pCO2偏差(pCO2obs - pCO2model),通过 Optuna 优化算法调整模型超参数。结果显示,不同子区域的模型在训练集和测试集上的 RMSE 值相近,表明模型性能可靠。
  3. 不确定性量化与数据产品生成:采用类似自举重采样的方法,为每个子区域生成 150 个训练数据集并训练 XGBoost 模型,确定最佳集成模型大小。然后将模型输入海洋状态变量数据,得到 pCO2偏差的最佳估计值和不确定性。研究人员尝试两种添加偏差的方法,一种是添加年际偏差得到年际校正的 pCO2数据集(pCIBR_Int),另一种是添加气候学平均偏差得到气候学校正的 pCO2数据集(pCIBR_Clim)。
  4. 技术验证与比较:将改进的数据产品与 BOBOA 浮标观测数据、网格化 SOCAT 数据、CMEMS - LSCE - FFNN 和 OceanSODA 数据集进行比较。结果表明,两种校正方法(pCIBR_Clim 和 pCIBR_Int)都显著提高了 pCO2model的准确性,RMSE 降低约 40%。与其他产品相比,pCIBR_Clim 性能更优,在降低 RMSE 和 MAE、提高 TSS 方面表现更好,且质量下降区域更少。

综上所述,该研究利用机器学习算法成功构建了印度洋长期高分辨率表层 pCO2改进数据产品。研究结果表明,两种校正方法均能有效提升数据产品的准确性,但 pCIBR_Clim 表现更为出色。这一成果为准确估算印度洋海气 CO2通量、识别 CO2源汇区域提供了有力支持,有助于深入理解印度洋在全球碳预算中的作用以及海洋酸化的机制。然而,研究也存在一定局限性,如观测数据的时空分布不均等问题仍有待解决。未来研究可以进一步拓展数据来源,优化模型算法,以提高海洋 pCO2估算的准确性,为海洋生态保护和应对气候变化提供更可靠的科学依据。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号