编辑推荐:
为解决目前重症支原体肺炎(SMPP)预测模型存在的不足,苏州大学附属儿童医院研究人员开展构建预测 SMPP 的机器学习(ML)模型研究。结果显示 CatBoost 模型预测性能最佳,能助力早期识别 SMPP。该研究为临床诊疗提供重要依据。
在儿童呼吸道疾病的 “战场” 上,支原体肺炎(MPP)是常见的 “敌人”。近年来,中国各地儿童 MPP 病例数显著增加,尤其是 6 - 11 岁的孩子,MPP 成为他们肺炎的主要病因。虽然多数患儿症状较轻、预后良好,但支原体耐药问题日益严重,导致重症支原体肺炎(SMPP)患儿数量上升。SMPP 会引发严重炎症反应和并发症,像坏死性肺炎、肺栓塞等,严重威胁孩子的健康。
目前预测 SMPP 的模型主要依赖传统逻辑回归方法,这些方法在处理数据不平衡问题时力不从心,也难以达到现代诊疗所需的精度,缺乏能系统整合临床特征并有效量化 SMPP 早期预测能力的综合模型。
为了攻克这些难题,苏州大学附属儿童医院的研究人员踏上了探索之旅。他们致力于开发一种可解释的机器学习(ML)模型,用于预测 SMPP,为临床判断疾病类型提供可靠依据。最终,他们的研究成果发表在《BMC Infectious Diseases》上,为临床医生带来了新的希望。
研究人员开展此项研究,主要运用了以下关键技术方法:收集 2021 年 9 月至 2024 年 6 月苏州大学附属儿童医院收治的 562 例学龄 MPP 患儿临床资料,经筛选最终纳入 483 例样本;通过差异分析和单因素逻辑回归筛选预测变量;运用 8 种 ML 算法构建模型,用受试者工作特征曲线下面积(AUC)、准确率等指标评估模型性能;利用 Shapley 加性解释(SHAP)算法解释模型,分析预测因素重要性 。
下面来看具体的研究结果:
- 患者特征:在 483 例 MPP 患儿中,男 236 例(48.86%),女 247 例(51.14%),平均年龄 8.30 ± 1.47 岁,SMPP 组 91 例,非重症支原体肺炎(NSMPP)组 392 例,两组在性别、年龄上无显著差异。SMPP 组患儿发热、住院时间更长,胸腔积液、肺不张等发生率更高,接受电子支气管镜检查的比例也更高。实验室检查结果显示,两组多数指标存在显著差异,最终确定 30 个变量作为潜在预测因素纳入模型。
- 模型开发与性能比较:将患者按 80:20 分为训练队列(387 例)和测试队列(96 例),用 30 个变量训练 8 种 ML 模型,并通过五折交叉验证确定超参数。结果显示,CatBoost 模型预测性能最佳(AUC = 0.934,准确率 = 0.9175) 。决策曲线分析(DCA)表明,在 34% - 75% 的阈值概率范围内,CatBoost 模型的净效益优于其他模型。
- 模型解释:运用 SHAP 算法解读 CatBoost 模型,发现发热天数、D - 二聚体的预测价值最强。发热天数、D - 二聚体、C 反应蛋白(CRP)、乳酸脱氢酶(LDH)、中性粒细胞与淋巴细胞比值(NLR)增加会促使模型预测为 SMPP;而血小板计数(PLT)和白蛋白与球蛋白比值(A:G)增加则使预测倾向于 NSMPP。
研究结论和讨论部分意义重大。研究表明,可解释的 CatBoost 模型能帮助医生准确识别 SMPP 学龄儿童,便于及时制定治疗方案、预防并发症。同时,SHAP 算法增强了模型的透明度和可信度。不过,该研究也存在局限性,如数据来自单中心回顾性研究,模型仅进行了内部验证,缺乏前瞻性验证。但总体而言,这项研究为 SMPP 的早期预测开辟了新道路,后续期待多中心验证和大规模前瞻性研究进一步完善相关成果,让这一模型能更好地应用于临床,守护孩子们的健康。