综述:由可沉降粉尘引起的社区困扰:影响空气污染认知的因素
《Atmosphere》:Community Annoyance Due to Settleable Dust: Influential Factors in Air Pollution Perception
【字体:
大
中
小
】
时间:2025年12月25日
来源:Atmosphere 2.3
编辑推荐:
空气污染与医院入院预测的机器学习方法研究及趋势分析。
空气污染与医院 admissions 预测的机器学习方法研究综述
摘要
全球范围内,空气污染对医院就诊率的影响已成为公共卫生领域的重要议题。本文通过系统分析2010-2024年间Scopus数据库中89篇相关研究,揭示了机器学习技术在空气污染健康效应预测中的应用现状、方法差异及研究趋势。研究发现,机器学习方法在预测医院 admissions 方面展现出显著优势,其中随机森林、神经网络和XGBoost等算法表现尤为突出。研究同时指出现有方法存在多污染物协同作用分析不足、数据质量参差不齐、模型可解释性待提升等关键问题,并提出了未来需要加强跨学科融合、优化算法选择、完善数据标准化等发展方向。
1. 引言
空气污染作为全球主要公共卫生威胁之一,其与医院就诊率的关系研究具有现实意义。尽管各国已采取减排措施,但像圣保罗、南京等大城市仍存在显著超标现象。现有研究多采用传统统计方法,存在假设限制、非线性关系捕捉不足等问题。机器学习技术凭借其处理复杂数据和非线性关系的优势,为建立精准预测模型提供了新思路。然而,该领域仍存在方法应用碎片化、数据标准不统一等瓶颈问题,亟待系统性研究梳理。
2. 材料与方法
2.1 文献检索策略
基于布尔逻辑和标题/摘要关键词组合(如"机器学习"+"医院 admissions"+"PM2.5"),通过Scopus数据库获取304篇初筛文献。经过标题摘要筛选(排除78篇)和全文评估(排除11篇),最终纳入89篇核心研究。检索覆盖2010-2024年,重点筛选英文原研究,确保方法学可靠性。
2.2 数据处理工具
采用VOSviewer进行文献计量分析,包括关键词共现网络构建、国家分布可视化等。使用Python的pandas库进行数据清洗,标准化处理包括:
- 国家名称统一(如"China"→"中国")
- 关键词去重与合并(如"air quality"与"atmospheric pollution"归为同一类别)
- 变量类型分类(气象、人口、社会经济等)
3. 研究结果
3.1 文献计量特征
3.1.1 时间分布
研究文献呈现显著阶段性特征:
- 初期探索阶段(2010-2018):年均3篇,方法以人工神经网络(ANN)和随机森林为主
- 快速发展阶段(2019-2021):年均15篇,XGBoost和LSTM开始应用
- 成熟应用阶段(2022-2024):年均18篇,出现多模型融合(如随机森林+LSTM)
3.1.2 区域分布
研究呈现"三足鼎立"格局:
- 美国(30篇)主导技术创新与模型验证
- 中国(18篇)侧重区域污染特征分析
- 巴西(11篇)关注发展中国家应用难题
值得关注的是,印度(4篇)、伊朗(5篇)等新兴国家研究量显著增长,反映全球南北方学术互动加深。
3.1.3 学科交叉
研究呈现典型跨学科特征:
- 环境科学(32.5%)提供污染数据基础
- 临床医学(26%)验证健康效应
- 计算机科学(7.1%)开发算法框架
- 工程学(3.9%)支撑传感器网络
3.2 算法应用现状
3.2.1主流算法对比
| 算法类型 | 应用频次 | 核心优势 | 典型局限 |
|----------------|----------|---------------------------|-----------------------|
| 随机森林 | 35次 | 特征重要性分析、抗过拟合 | 大数据计算效率不足 |
| 神经网络 | 18次 | 处理高维非线性关系 | 需要大量标注数据 |
| XGBoost | 14次 | 高精度短时预测(87-95%) | 超参数调优复杂度高 |
| LSTM | 13次 | 捕捉时序依赖(1-7天滞后) | 需要长时间序列数据 |
3.2.2 算法演进趋势
- 2010-2018:传统统计方法(ARIMA、多元回归)占主导(68%)
- 2019-2021:机器学习方法渗透率提升至57%,随机森林(35%)和ANN(18%)成为主流
- 2022-2024:XGBoost(14次)和LSTM(13次)应用显著增长,多算法融合使用率提升至42%
3.3 污染物与健康关联
3.3.1 高频污染物
- PM2.5(72%):主要影响呼吸系统(37次)和心血管系统(29次)
- NO2(54%):与呼吸道疾病强相关(28次)
- PM10(51%):多用于区域尺度研究(如南京、圣保罗)
- O3(45%):季节性变化显著(冬季浓度升高63%)
3.3.2 协同效应分析
复合污染物模型较单一污染物模型预测精度提升:
- PM2.5+NO2组合:AUC达0.89(随机森林)
- PM2.5+O3组合:NSE指数提高22%(LSTM)
- NO2+温度组合:急诊量预测误差降低19%(XGBoost)
3.4 方法论挑战
3.4.1 现存问题
- 24%研究仅用单一污染物建模(PM2.5为主)
- 29%研究未控制气象变量(温度、湿度)
- 42%研究缺乏社会经济数据整合
- 18%研究未进行跨区域验证
3.4.2 技术突破方向
- 混合架构:随机森林(特征筛选)+LSTM(时序建模)
- 可解释AI:SHAP值分析(78%研究采用)
- 联邦学习:解决数据隐私问题(新兴趋势)
- 实时预警系统:XGBoost+LSTM组合模型预测误差<8%
4. 结论与展望
4.1 关键发现
- 预测模型准确率普遍超过80%(XGBoost达95%)
- 时空滞后效应建模(LSTM)显著优于传统方法
- 多变量协同建模可提升15-25%预测精度
- 老年群体(≥65岁)和儿童(<5岁)敏感性差异达3倍
4.2 研究局限
- 数据碎片化:仅34%研究使用国家级数据库
- 模型泛化性不足:区域差异导致误差率波动(±12%)
- 伦理审查缺失:涉及患者隐私数据的研究仅占18%
4.3 未来方向
1) 方法论优化:开发自动化特征工程工具包(如自动选择滞后时间)
2) 数据治理:建立全球空气污染-健康联合数据库(AP-HDB)
3) 技术融合:物联网传感器(精度±5%)+数字孪生城市模型
4) 价值延伸:构建"污染预警-医疗资源调度-政策干预"闭环系统
本研究证实,机器学习方法可有效提升医院 admissions 预测精度,但需注意:
- 避免算法黑箱化(需解释性增强)
- 加强跨区域、跨人群验证
- 建立标准化数据接口(如WHO推荐格式)
- 探索联邦学习在医疗数据共享中的应用
当前研究已进入成熟期,但方法论规范化仍需加强。建议设立国际协作组,制定《空气污染-健康预测ML模型应用指南》,推动该领域从技术验证转向临床实用。未来5年,随着5G和边缘计算发展,基于实时污染数据的嵌入式预测系统将逐步普及,这对公共卫生应急管理具有重要价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号