基于元学习集成框架的急救医疗服务需求鲁棒可解释预测研究
《Scientific Reports》:A meta-learning ensemble framework for robust and interpretable prediction of emergency medical services demand
【字体:
大
中
小
】
时间:2025年12月10日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对印度等低资源公共卫生系统中急救医疗服务(EMS)需求预测的准确性、鲁棒性和可解释性难题,提出了一种新型元学习集成框架EM-LR(Ensembled Meta-Learner with Linear Regression)。该框架融合拉索回归、支持向量回归(SVR)、多层感知器(MLP)和极限梯度提升(XGB)四种异构基学习器,通过线性回归元学习器集成预测,在仅使用时间和气象特征条件下,实现了印度北方邦五个地区日度EMS呼叫量的精准预测。实验表明,EM-LR相较传统模型及TBLSSVR、AHELM、MHKLDMR等先进变体,RMSE降低达9.5%,预测方差减少超40%,为发展中国家公共卫生系统提供了可扩展、可解释的EMS规划解决方案。
在人口密集、资源有限的地区,如何快速响应医疗急救呼叫是关乎生命安危的关键问题。尤其像印度北方邦这样的地区,急救医疗服务系统面临着巨大压力:人口基数大、地域发展不均衡、医疗资源分布不均,导致救护车响应时间差异显著。传统的急救需求预测模型多基于发达国家城市环境的高质量数据构建,而针对发展中国家地区级、数据特征有限的现实情况,现有模型往往在精度、稳定性或可解释性方面存在不足。要么是复杂的“黑箱”模型难以让人信赖,要么是简单模型无法捕捉复杂的变化规律。正是在这样的背景下,印度理工学院鲁尔基分校的研究团队开展了一项创新性研究,旨在开发一种既精准又可靠,还能说清预测依据的急救需求预测新方法,其成果发表于《Scientific Reports》。
本研究采用了元学习集成技术框架EM-LR,核心方法包括:基于印度北方邦五地区真实救护车调度数据与气象数据构建特征集(含时间、气象及历史EMS特征);利用SHAP(SHapley Additive exPlanations)和Pearson相关性进行特征选择;集成Lasso回归、SVR、MLP、XGB四种异构基模型;采用线性回归作为元学习器融合基模型预测结果;通过5折交叉验证与网格搜索优化超参数,并以RMSE、MAE、MAPE、MBE等指标全面评估模型性能,同时进行统计显著性检验(t-Friedman检验)和鲁棒性分析。
实验结果表明,EM-LR模型在预测日度EMS需求方面 consistently 优于所有基线模型(包括MLP、SVR、RF、XGB)以及近期先进的回归模型变体(AHELM、TBLSSVR、MHKLDMR)。在所有五个地区(Agra, Gorakhpur, Kanpur Nagar, Lucknow, Varanasi),EM-LR均取得了最低的RMSE(均方根误差)值,表明其捕捉EMS调度需求时空依赖性的卓越能力。例如,在Lucknow和Varanasi,EM-LR的RMSE分别低至6.01和3.41。与先进学习器相比,EM-LR也显示出可比或更优的泛化性能,如在Lucknow,其RMSE(6.01)显著低于AHELM(6.90)和TBLSSVR(9.21)。在MAE(平均绝对误差)和MAPE(平均绝对百分比误差)指标上,EM-LR同样表现最佳,尤其在结合特征选择(T+W+FS)的配置下,MAPE值可低至0.32(Lucknow)和0.35(Gorakhpur)。此外,EM-LR有效降低了系统偏差(MBE),其偏差减少幅度从37.5%(Lucknow)到69.4%(Varanasi)不等,表明其预测行为更为平衡。
Statistical significance analysis
通过t-Friedman检验和地区配对t检验对EM-LR的优越性能进行了统计验证。全局t-Friedman检验(F7,21= 24.02, p = 3.86 x 10-7)拒绝了模型性能无差异的原假设。EM-LR获得了最佳平均排名(1.125)。事后检验(Holm校正)证实EM-LR在统计上显著优于TBLSSVR、AHELM和MHKLDMR等先进模型。地区配对t检验进一步支持了这些发现,在大多数地区,EM-LR与基线模型的RMSE差异具有统计学意义(p < 0.05)。
Feature importance analysis
通过SHAP和Pearson相关性分析进行了特征重要性分析。结果表明,历史EMS调度指标是最具影响力的预测因子。气象变量中,温度、露点、风速、降水和压力显示出显著影响,而能见度和前日降雨量影响较小。时间变量(年、月、工作日)表现出适度但一致的相关性。特征选择(T+W+FS)相较于使用全部特征(T+W)的EM-LR模型,在多数地区带来了统计显著的性能提升(p < 0.05),验证了特征选择在提升模型性能方面的价值。
通过计算不同数据划分下RMSE的方差来评估模型鲁棒性。EM-LR在五个地区均表现出最低或接近最低的方差,表明其预测性能对数据分割不敏感,具有很高的稳定性。例如,在Agra,EM-LR的方差为1.59,低于其他模型;在Kanpur Nagar,其方差为0.66;在Lucknow,其方差为2.34;在Varanasi,其方差最低,为0.30。这表明EM-LR能够提供一致可靠的预测,适应不同的操作环境。
本研究提出的EM-LR框架成功解决了EMS需求预测中精度、鲁棒性与可解释性之间的平衡难题。通过集成四种具有互补优势的异构学习器,并采用透明的线性元学习器及SHAP特征分析,EM-LR在印度北方邦五个多样化的地区实现了准确、稳定且可解释的日度EMS需求预测。其性能显著优于传统机器学习模型及若干先进的回归算法变体,且表现出更低的预测方差。统计检验证实了其性能优势的可靠性。特征分析揭示了历史调度模式的主导作用以及气象因素的非线性影响。EM-LR框架的优势在于其不依赖于复杂的深度学习架构或丰富的特征集,使其特别适合在数据稀缺、资源受限的公共卫生环境中部署,为应急资源规划、救护车调度和人员配置提供了科学依据,有望提升应急响应效率,最终惠及公共健康。未来工作可扩展至更多地区,并引入概率预测以更好地量化不确定性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号