编辑推荐:
研究人员用 LSTM 神经网络结合 SHAP,预测巴西登革热,该模型性能优,对公共卫生意义重大。
登革热,一种由蚊子传播的病毒性疾病,如同隐藏在暗处的 “健康杀手”,悄然威胁着全球约一半人口的健康。在巴西,由于其多样的气候和快速的城市化进程,为传播登革热病毒的埃及伊蚊创造了绝佳的繁殖环境,使得登革热成为一个长期困扰该国的公共卫生难题。2024 年,巴西更是经历了一场历史性的登革热大爆发,大量的病例和死亡数据令人揪心,并且疫情还蔓延到了以往未受影响的地区。
面对如此严峻的形势,准确的登革热预测模型显得尤为重要。然而,现有的预测方法存在诸多问题,传统的统计模型难以处理非线性关系,无法适应外部环境和社会经济因素带来的变化;一些机器学习模型在选择相关气候变量时缺乏系统方法,还常常忽略空间依赖性,导致预测的准确性大打折扣。
在此背景下,来自阿卜杜拉国王科技大学(King Abdullah University of Science and Technology)的研究人员 Xiang Chen 和 Paula Moraga 开展了一项登革热预测研究,研究成果发表在《BMC Public Health》杂志上。
研究人员开发了一种基于长短期记忆(Long Short-Term Memory,LSTM)神经网络的模型,为了优化模型性能,他们运用了 SHapley Additive exPlanations(SHAP)技术。该技术能够从众多气候变量中筛选出对登革热预测最为关键的因素,避免了变量的冗余,提高了模型的预测能力。同时,模型还考虑了相邻州的登革热病例数据,以此来捕捉空间依赖性,并且纳入了季节性模式,更加全面地反映登革热传播的复杂动态。
在研究过程中,研究人员使用了来自 InfoDengue 的登革热数据,该数据涵盖了巴西多个城市的每周病例计数,为研究提供了高时间分辨率的数据支持。气候数据则来源于哥白尼 ERA5 再分析数据集,通过对这些数据的处理和分析,研究人员能够获取与登革热传播相关的气候信息。
研究结果显示,该模型在大多数巴西州都表现出了卓越的性能。通过 SHAP 分析,研究人员确定了不同州影响登革热传播的关键气候变量,例如在米纳斯吉拉斯州(Minas Gerais),最大相对湿度、最小降水率和最低温度是主要的影响因素。在模型性能对比中,LSTM - Climate - Spatial 模型在均方根误差(MAE)、平均绝对百分比误差(MAPE)和连续 ranked 概率评分(CRPS)等指标上,均优于其他模型,充分证明了其在捕捉登革热传播动态方面的有效性。
在一些州,如米纳斯吉拉斯州、巴拉那州(Paraná)和塞阿拉州(Ceará),纳入空间效应显著提高了模型的准确性。这是因为这些州人口密度较高,人类活动频繁,登革热在区域间的传播受到相邻地区的影响较大。然而,在巴西北部的一些州,由于其地理环境特征,如广阔的热带雨林和相对较低的人口流动性,空间效应的加入并没有提升模型的性能,甚至在一定程度上增加了预测误差。
总的来说,这项研究开发了一个可扩展且强大的登革热预测框架,有效整合了时间、气候和空间信息。该模型在巴西不同地区的成功应用,展示了其在其他登革热流行地区的潜在应用价值,为公共卫生战略的制定和疫情的防控提供了重要的依据。不过,研究也存在一些局限性,如数据可能存在偏差和不确定性,空间效应的建模方法还需要进一步优化。未来的研究可以朝着更精确的空间依赖性建模方向发展,例如纳入人类流动性数据或更广泛的区域交互信息,以进一步提高预测的准确性。
这项研究为登革热的预测和防控带来了新的思路和方法,尽管还有一些需要完善的地方,但无疑为全球登革热防治工作迈出了重要的一步,期待未来能有更多突破,让人们更好地应对这一公共卫生挑战。