编辑推荐:
本研究为瑞士国家级超细颗粒(UFP)暴露评估开发了一个机器学习框架,揭示了20%的人口面临高暴露水平,这对未来的UFP标准具有重要意义
机器学习助力超细颗粒物高分辨率暴露评估研究解读
来自清华大学安全科学学院等单位的研究人员在Nature Communications期刊上发表了题为 “Machine learning-enhanced high-resolution exposure assessment of ultrafine particles” 的论文。该研究通过开发创新的机器学习框架,实现了对瑞士全国范围内超细颗粒物(UFPs)暴露的高分辨率评估,为 UFPs 相关研究和标准制定提供了关键数据支持和理论依据,对公共健康和环境科学领域意义重大。
一、研究背景
环境颗粒物暴露是全球主要的健康问题之一。过去几十年,大量流行病学研究聚焦于基于质量的指标(如
和
)与死亡率风险的关系。然而,毒理学研究表明,相关剂量指标不仅与颗粒质量有关,还取决于颗粒的大小、形状和表面性质。
UFPs 是指直径小于 100nm 的颗粒,因其尺寸小、比表面积大,易穿透并接触人体组织器官,对健康构成重大风险。尽管 UFPs 在总颗粒数中占比大,但对总体质量贡献极小,基于质量的指标无法准确表征其影响。目前,关于 UFPs 暴露对健康的确切影响仍不明确,主要原因是缺乏 UFPs 浓度空间变化的暴露数据。
世界卫生组织(WHO)在其全球空气质量指南中建议用颗粒数浓度(PNC)来量化环境 UFPs,并倡导利用新兴科技改进 UFPs 暴露评估方法。但监测 PNC 比测量基于质量的指标更具挑战性,其发展仍处于早期阶段。大气扩散模型和数据驱动方法(如土地利用回归模型)虽已用于评估 PNC 暴露,但都存在局限性。近年来,机器学习方法被引入 UFPs 暴露评估领域。
二、研究材料与方法
(一)数据来源
研究使用了瑞士国家空气污染监测网络(NABEL)的长期标准化 PNC 测量数据,涵盖 2016 - 2019 年的 78% 数据用于训练,2020 年的 22% 数据用于测试,其中 5% 的训练数据作为验证集用于超参数调整。此外,还利用了哥白尼大气监测服务(CAMS)验证的空气质量再分析数据集、欧洲中期天气预报中心再分析 v5(ERA5)的气象数据、Open Transport Map 的 100m 分辨率交通数据以及世界人口网格(GPW)v4 的 2020 年人口数据。
(二)关键技术路线
研究提出了一种基于堆叠的机器学习框架 Stem - PNC,用于估计 PNC。该框架集成了数据驱动和物理化学模型,包含两个模型层级。第一层由 K 近邻(KNN)、决策树(Tree)、随机森林(RF)和 Light Gradient Boosting Machine(LGB)四个基础学习器组成,用于捕捉 PNC 与相关因素的非线性关系;第二层为元学习器,使用多层感知器(MLP)神经网络聚合基础学习器的预测结果。
为提高 CAMS 数据的空间分辨率,研究开发了基于机器学习的降尺度技术,利用 Light Gradient Boosting Machine(lightGBM)和 Gradient Boosting Machine 对 CAMS 数据进行降尺度处理。最终,将降尺度后的 CAMS 数据、ERA5 气象数据、交通数据和时间数据输入 Stem - PNC 模型,实现对瑞士全国范围内 PNC 的高分辨率估计。
三、研究结果
(一)数据驱动模型性能
通过对不同模型的比较,发现 Stem - PNC 在预测 PNC 方面表现出色。其
可达 0.845,均方根误差(RMSE)为 4594,平均偏差(M - Bias)仅为 124,性能与深度学习模型相当,但硬件要求更低,计算效率更高。在不同平均周期下,模型精度随平均周期延长而提高,
从每小时平均的 0.85 提升到每月平均的 0.92,表明该模型适用于长期暴露评估。
(二)模型泛化能力
采用五折站点留出交叉验证方法评估 Stem - PNC 的空间和时间泛化能力。结果显示,在城市环境中的 BER 和 LUG 站点,模型预测与实际测量高度吻合;而在具有极端环境特征的 HAE(靠近高速公路的农村站点)和 RIG(海拔高于 1000m 的农村站点),模型分别出现低估和高估情况。总体上,模型每月平均预测值与实际测量值偏差在两倍以内,
在 0.76 - 0.91 之间,表明其在不同地理区域和时间周期内捕捉 UFP 模式和动态的有效性。
(三)瑞士 PNC 分布
利用 Stem - PNC 模型结合 CAMS 和 ERA5 数据集,对瑞士 2020 年的 PNC 进行估计。结果表明,PNC 在瑞士北部地区和主要道路沿线较高,季节上 1 - 3 月和 10 - 12 月高于 4 - 6 月和 7 - 9 月,这与其他受监管污染物(如 NOx)的季节波动一致,主要归因于寒冷季节大气混合减少和边界层高度降低,以及夏季降雨等因素。
对比五个 NABEL 站点的年度平均 PNC 测量值与模型结果,发现站点特定估计和网格平均估计与测量值总体吻合较好,但在 HAE 站点偏差最大,且两者均低估了 PNC,可能是由于附近高速公路的局部高排放。
(四)UFPs 暴露评估
对瑞士 1km×1km 网格的年度平均 UFPs 暴露评估显示,约 20%(170 万)的瑞士人口暴露于高 UFP 水平(年平均超过
particles?
)。城市中心、城市集群和农村地区的 UFP 暴露存在差异,城市中心的社区级 UFP 暴露范围最广,中位数最高;农村地区分布最紧凑,中位数最低。全国平均社区级暴露为
particles?
。
研究还发现,UFP 的空间异质性比
大得多,UFP 和
在社区层面的中位数变异系数分别为 0.38 和 0.032,不同区域类型中,UFP 变异系数相对稳定,而
变异系数差异较大。
(五)WHO 高 UFP 暴露水平评估
基于 WHO 空气质量指南中 24 小时平均和 1 小时高暴露参考水平,评估社区级 UFP 暴露。结果表明,超过 24 小时平均高暴露水平的社区持续时间和空间范围明显大于超过 1 小时高暴露水平的社区。两者之间存在显著非线性关系,表明这两个参考水平可能无法一致反映高 UFP 暴露模式,在未来高 UFP 暴露建议中应予以考虑。
不同区域类型在不同暴露水平下的暴露人口比例和持续时间也存在差异。基于 1 小时参考水平,城市中心和城市集群的暴露人口呈负相关;基于 24 小时平均参考水平,则呈正相关。
四、研究结论与讨论
研究开发的 Stem - PNC 模型通过集成数据驱动和物理化学模型,实现了高精度、高分辨率的 UFP 暴露评估。该模型利用瑞士独特的长期标准化 PNC 测量数据和大量监管污染物数据,泛化能力强,计算效率高,与深度学习模型相比优势明显。
通过全国范围的 UFP 暴露评估,揭示了不同区域类型的 UFP 暴露特征,约 20% 的瑞士人口面临高 UFP 暴露风险,城市中心和城市集群的部分居民暴露水平较高,应引起关注。
研究还发现 WHO 推荐的两个高 UFP 暴露参考水平之间存在非线性关系,这对当前认为两者可互换的观点提出了挑战,表明两者对于有效管理 UFP 暴露都很必要,一个用于控制每日暴露,另一个用于控制每小时暴露峰值。此外,UFP 空间异质性明显大于
,意味着其监测策略需与基于质量的测量方法有所不同。
该研究成果不仅为瑞士 UFP 暴露情况提供了全面图景,也为其他国家在类似排放标准下进行大规模 UFP 暴露评估提供了参考。Stem - PNC 模型可通过少量其他地区 UFP 测量数据进行微调后应用,在 UFP 建模和流行病学研究中具有重要价值,为未来 UFP 标准的制定提供了关键见解。
涓嬭浇瀹夋嵎浼︾數瀛愪功銆婇€氳繃缁嗚優浠h阿鎻ず鏂扮殑鑽墿闈剁偣銆嬫帰绱㈠浣曢€氳繃浠h阿鍒嗘瀽淇冭繘鎮ㄧ殑鑽墿鍙戠幇鐮旂┒
10x Genomics鏂板搧Visium HD 寮€鍚崟缁嗚優鍒嗚鲸鐜囩殑鍏ㄨ浆褰曠粍绌洪棿鍒嗘瀽锛�
娆㈣繋涓嬭浇Twist銆婁笉鏂彉鍖栫殑CRISPR绛涢€夋牸灞€銆嬬數瀛愪功
鍗曠粏鑳炴祴搴忓叆闂ㄥぇ璁插爞 - 娣卞叆浜嗚В浠庣涓€涓崟缁嗚優瀹為獙璁捐鍒版暟鎹川鎺т笌鍙鍖栬В鏋�
涓嬭浇銆婄粏鑳炲唴铔嬬櫧璐ㄤ簰浣滃垎鏋愭柟娉曠數瀛愪功銆�