基于机器学习模型的全球结核病发病率与HIV-TB共感染预测研究:WHO数据驱动的公共卫生决策新策略

【字体: 时间:2025年04月22日 来源:Scientific Reports 3.8

编辑推荐:

  本研究针对结核病(TB)及HIV-TB共感染这一全球公共卫生难题,利用WHO 2023年全球结核病负担数据集,采用XGBoost等13种机器学习(ML)模型进行预测分析。研究发现XGB模型对TB发病率(e_inc_100k)预测准确率达99.7%,GB模型对HIV-TB共感染率(e_inc_tbhiv_100k)预测准确率达98.58%,结合SHAP和LIME可解释人工智能(XAI)技术揭示了关键流行病学特征。该研究为精准防控资源分配提供了数据支持,推动了WHO终止结核病战略的实施进程。

  

结核病(TB)这个古老的传染病至今仍是全球第二大传染病杀手,每年导致超过100万人死亡。更令人担忧的是,HIV感染者的免疫系统受损后,其发展为活动性结核病的风险激增20-30倍,形成致命的"双重流行病"组合。尽管全球在结核病防控上投入巨资(2022年达58亿美元),但COVID-19大流行导致诊断延误,2022年新发病例骤增至750万例,非洲地区更是占到全球病例的25%。传统统计方法在分析如此复杂的流行病学数据时显得力不从心,迫切需要更智能的解决方案。

在此背景下,来自近东大学、韩国大学和沙特国王大学的研究团队开展了一项开创性研究。他们利用世界卫生组织(WHO)2023年全球结核病负担数据库,涵盖215个国家、8个关键变量(包括每10万人口TB发病率e_inc_100k和HIV阳性TB发病率e_inc_tbhiv_100k),采用13种先进的机器学习(ML)模型进行预测分析,并将结果发表在《Scientific Reports》期刊。

研究团队首先对WHO数据集进行标准化处理,采用Python 3.10.2进行数据预处理和归一化。通过随机划分将数据分为训练集(3687×7)和测试集(1230×7),使用相关系数矩阵分析变量关联性。随后应用包括梯度提升(GB)、极端梯度提升(XGB)、随机森林(RF)等13种ML模型进行预测,最后引入SHAP和LIME两种可解释人工智能(XAI)技术解析模型决策机制。

【模型性能比较】
XGB模型在预测TB发病率(e_inc_100k)方面表现最优,准确率99.7%、精确度99.80%、召回率99.6%、F1分数99.7%、ROC-AUC值99.7%。而GB模型在预测HIV-TB共感染率(e_inc_tbhiv_100k)上拔得头筹,相应指标分别为98.58%、98.32%、98.73%、98.53%和98.58%。相比之下,传统逻辑回归(LR)模型准确率仅约50%,凸显ML模型的显著优势。

【可解释性分析】
SHAP分析揭示:死亡率(e_mort_100k≤-0.46)和新病例率(c_newinc_100k≤-0.62)是预测TB风险的最关键正向特征,而病例检出率(c_cdr=0.35)的贡献相对较小。LIME进一步量化显示:低死亡率区域(-0.48)的预测概率达43%,证实流行病学参数与模型预测的高度一致性。

这项研究首次系统评估了ML模型在TB和HIV-TB共感染预测中的效能,其创新性体现在三方面:一是采用WHO权威全球数据确保结果普适性;二是通过XAI技术破解ML"黑箱"难题,使预测结果具临床可操作性;三是为UNAIDS和WHO终止结核病战略提供了精准的决策支持工具。未来可将这些模型整合到公共卫生监测系统,实现高危地区的早期预警和资源优化配置,特别是在非洲等疾病负担沉重地区。研究也存在局限性,如数据集未包含区域社会经济差异等细节,这将是后续研究需要完善的方向。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号