编辑推荐:
结核病(TB)是严重的全球健康问题,受多种因素影响。研究人员运用 XGBoost、XAI 及空间分析,研究全球 194 个国家 2000 - 2022 年的 TB 情况。结果显示 XGBoost 预测性能最佳,还明确了关键影响因素,为应对 TB 提供科学依据。
结核病(Tuberculosis,TB)一直以来都是严重威胁全球公共健康的 “大敌”。它悄无声息地在人群中传播,让无数人深受其害,导致了极高的死亡率和发病率,尤其在那些医疗条件落后、经济不发达的中低收入国家,结核病更是肆意横行。虽然全球卫生组织,像世界卫生组织(WHO)积极采取措施,推出了 “终止结核病战略”,立志大幅降低结核病的死亡率和新增病例数,但现实却不尽如人意,结核病的发病率和死亡率依旧居高不下。这背后的原因十分复杂,社会经济状况、环境因素、医疗保健水平等都在其中扮演着重要角色。而且,目前对于影响结核病发病和发展的各种因素之间的相互作用,科研人员还没有完全弄清楚。正是在这样的背景下,为了深入了解结核病,找到更有效的防控策略,来自孟加拉国 Begum Rokeya 大学统计系的研究人员 Md. Siddikur Rahman 和 Abu Bokkor Shiddik 开展了一项意义重大的研究。他们的研究成果发表在《Scientific Reports》上,为全球抗击结核病提供了宝贵的思路和方向。
研究人员在此次研究中运用了多种先进的技术方法。首先,从世界卫生组织和世界银行的数据库收集了 194 个国家 2000 - 2022 年与结核病相关的各类数据,涵盖了疾病发病和死亡情况、治疗相关指标、社会经济因素、环境因素等多方面信息。然后,对收集到的数据进行预处理,包括缺失数据的填补、数据的标准化处理等。接着,利用多种机器学习(Machine Learning,ML)模型,如广义线性模型(GLM)、决策树(DT)、XGBoost、LightGBM、支持向量回归(SVR)等进行建模预测,最终发现 XGBoost 模型在预测结核病发病率和死亡率方面表现最佳。同时,结合可解释人工智能(XAI)方法中的 SHAP(Shapley Additive Explanations)分析,明确各因素对结核病发病的影响程度,还运用空间自相关分析(Moran’s I)来探究结核病的地理分布特征。
研究结果
- 结核病趋势和地理分布:2000 - 2022 年期间,全球结核病发病率和死亡率呈现出明显的波动和地区差异。发病率在每 10 万人中从 20176 到 29857 不等,平均为 25686;死亡率在每 10 万人中从 2303 到 3874 不等,平均为 3059。像斯威士兰(Eswatini)的结核病发病率极高,而圣马力诺(San Marino)则很低;缅甸(Myanmar)的结核病死亡率较高,部分年份甚至达到每 10 万人 2224 例,而圣马力诺和朝鲜民主主义人民共和国在某些年份死亡率为 0。通过空间自相关分析发现,一些因素如 HIV 阳性人群中的结核病发病率、5 岁以下儿童死亡率、人口增长和空气污染等存在明显的空间聚集现象,表明这些因素在某些地区对结核病的发生有重要影响。
- 相关性分析:相关性研究表明,HIV 阳性患者的结核病发病率与总体结核病发病率之间存在很强的正相关(r = 0.83);确诊的耐多药结核病(MDR - TB)病例与开始 MDR - TB 治疗的病例之间也高度相关(r = 0.97)。同时,结核病发病率与获得电力供应呈负相关(r = - 0.50),烟草使用率与出生时预期寿命呈中度负相关(r = - 0.31)。
- 模型评估与因素影响:在多种模型对比中,XGBoost 模型展现出卓越的性能,其均方根误差(RMSE)最低(0.88),R2最高(0.67),调整后的 R2(0.65)也最高,说明该模型对数据的拟合效果最好。通过 SHAP 分析发现,治疗成功率、MDR - TB 确诊病例数、HIV 相关因素、烟草使用、高血压患病率、空气污染等因素对结核病发病率的预测有重要影响。例如,MDR - TB 确诊病例对结核病发病率的影响最为显著(SHAP = 0.874),空气污染也有明显影响(SHAP = 1.36)。
- 预测准确性和趋势分析:对 2020 - 2022 年结核病发病率的预测结果显示,XGBoost 模型具有较高的准确性,预测值与实际值的相关性较高(r = 0.85,r2 = 0.72)。对 2023 - 2030 年结核病发病率的趋势预测表明,不同国家的结核病发病率变化趋势不同,部分国家如阿尔巴尼亚、亚美尼亚和博茨瓦纳预计会上升,而像伯利兹、柬埔寨和纳米比亚等国家则预计会下降。
研究结论和讨论部分强调,虽然全球结核病发病率和死亡率总体呈下降趋势,但部分地区形势依然严峻,如缅甸的高死亡率、斯威士兰的高发病率等,这凸显了加强医疗系统建设和防控措施的紧迫性。通过空间自相关分析和相关性分析,研究人员发现了结核病相关因素的空间聚集现象,这为制定针对性的公共卫生干预措施提供了重要依据。例如,在空间聚集明显的地区,可以加强监测、改善医疗设施、开展健康教育等。此外,研究还明确了各种因素对结核病发病率的影响,为政策制定者提供了关键信息。比如,提高治疗成功率、控制 MDR - TB 的传播、改善社会经济状况、减少空气污染等,都有助于降低结核病的发病率和死亡率。
此次研究的意义重大,它将机器学习、可解释人工智能和空间分析相结合,深入剖析了结核病的流行病学特征和相关风险因素,为全球结核病防控提供了科学依据和新的思路。不过,研究也存在一些局限性,如数据可能存在偏差、模型无法确定因果关系、研究结果的普适性受地区差异影响等。未来还需要进一步开展更多研究,尤其是针对局部地区的研究,以验证和完善这些发现,为最终战胜结核病贡献更多力量。