基于机器学习的儿童重症社区获得性肺炎危重进展风险预测模型构建与验证
《Scientific Reports》:Development and validation of a machine learning model for critical progression risk in pediatric severe community-acquired pneumonia
【字体:
大
中
小
】
时间:2025年12月03日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对儿童重症社区获得性肺炎(SCAP)向危重症(cSCAP)进展的早期识别难题,开发了基于XGBoost算法的预测模型。研究通过Logistic回归和LASSO回归筛选出RDW-CV、PCT、BUN和LDH四个关键生物标志物,模型在验证集上AUC达0.98(95%CI:0.93-1.00),灵敏度为0.98,为临床早期干预提供了可靠工具。
在全球范围内,社区获得性肺炎(CAP)始终是威胁儿童健康的主要杀手,特别是在五岁以下儿童中。数据显示,2019年全球有54.1万名1-59月龄的儿童死于肺炎。当肺炎进展为重症(SCAP)时,病情可能急转直下,出现呼吸衰竭、感染性休克甚至多器官功能障碍综合征(MODS)。在儿科重症监护病房(PICU)中,SCAP患儿的死亡率可高达12.3%,并发症发生率更是惊人地达到82.3%。其中,约77.0%的患儿会出现呼吸衰竭,12.4%会发生感染性休克。更令人担忧的是,近七成(68.4%)因严重肺炎入住PICU的儿童需要接受有创机械通气,死亡率达到13.5%。
面对如此严峻的形势,临床医生迫切需要有效的工具来早期识别那些可能进展为危重症肺炎(cSCAP)的患儿。然而,与成人不同,目前尚无经过验证的儿童肺炎严重程度风险评估工具(如CURB-65、PSI等适用于成人的评分系统)。现有的预测模型大多基于西方人群数据开发,可能不适用于中国患儿;或者过于关注营养不良、HIV感染等合并症,在医疗资源相对充足的地区适用性有限。此外,这些模型往往依赖临床症状评估,而准确评估不合作的儿科患者本身就充满挑战。
在这一背景下,蚌埠医科大学第一附属医院儿科重症医学科的研究团队开展了一项创新研究,旨在利用机器学习技术开发一个能够准确预测SCAP患儿向cSCAP进展风险的模型。该研究回顾性分析了2021年1月至2023年4月期间收治的211名SCAP患儿的临床数据,成果发表在《Scientific Reports》期刊上。
研究人员采用了几项关键技术方法:首先,他们结合Logistic回归和LASSO回归进行变量筛选,确保所选特征既具有统计学意义又具备预测价值;其次,利用7种机器学习算法(包括LR、DT、RF、XGBoost、NB、KNN和SVM)构建预测模型,并通过10折交叉验证评估性能;最后,应用SHAP(Shapley Additive Explanations)算法对最优模型进行解释,增强其临床可接受度。所有数据来自蚌埠医科大学第一附属医院PICU的单一中心队列。
研究最终纳入211例患儿,随机分为训练集(148例)和验证集(63例)。两组在年龄、性别及各项实验室指标上均无显著差异(P>0.05),保证了后续模型构建和验证的可靠性。
通过系统的变量筛选策略,研究确定了四个关键预测因子:红细胞分布宽度变异系数(RDW-CV)、降钙素原(PCT)、血尿素氮(BUN)和乳酸脱氢酶(LDH)。这些指标在单因素和多因素Logistic回归分析中均显示与cSCAP显著相关,且通过LASSO回归进一步验证了其预测价值。相关性热图显示这些变量之间相互独立,适合用于建模。
在七种机器学习算法中,XGBoost模型表现最为出色,其在验证集上的AUC达到0.98(95%CI:0.93-1.00),准确率为0.89,灵敏度高达0.98,特异度为0.75。其他模型的性能相对较低,如随机森林(RF)的AUC为0.97,决策树(DT)为0.94,而朴素贝叶斯(NB)和K近邻(KNN)的AUC分别仅为0.76和0.77。
阈值敏感性分析显示,当分类阈值设定为0.50时,XGBoost模型能在高灵敏度(0.98)和可接受的特异度(0.75)之间取得良好平衡。降低阈值至0.45可将特异度提高至0.90,但灵敏度会相应降至0.88。考虑到PICU环境中漏诊危重病例的风险更高,研究最终选择了0.50作为默认阈值。
SHAP分析揭示了各变量对预测结果的贡献度。PCT是最重要的预测因子,其升高与疾病进展风险显著相关;LDH排名第二,反映了组织损伤和代谢应激程度;RDW-CV和BUN也对风险分层有贡献。患者水平的SHAP力力图可以直观展示各个因素如何共同影响特定患者的预测风险,为临床决策提供透明化解释。
这项研究成功开发了一个基于机器学习的高精度预测模型,能够早期识别SCAP患儿中那些可能进展为cSCAP的高危个体。XGBoost算法凭借其出色的性能成为最佳选择,AUC高达0.98,灵敏度达到0.98,阴性预测值(NPV)为0.93,意味着该模型在排除低风险病例方面具有高度可靠性——这一特性在急诊分诊场景中尤为重要。
研究中确定的四个关键生物标志物都具有明确的临床意义:PCT作为细菌感染和全身炎症的标志物,其预测价值已得到广泛认可;LDH升高反映了组织损伤和代谢应激,与多种呼吸道感染的严重程度相关;RDW-CV与危重患者的全身炎症和氧化应激有关;BUN则可能暗示肾脏灌注不足、肌肉分解代谢增强等病理生理过程。这些常规可得的实验室指标的组合使用,增强了模型在临床实践中的可行性。
该研究的创新之处在于将先进的机器学习技术与可解释的人工智能方法(SHAP)相结合,不仅提供了高精度的预测工具,还提供了透明化的决策解释,有助于增加临床医生对模型的信任和接受度。如果能够整合到PICU的工作流程中,该模型可以作为一个基于阈值的预警系统,当预测风险较高时触发更密切的监测或加速转入重症监护,从而可能减少治疗延迟,改善患儿预后。
当然,这项研究也存在一些局限性,包括单中心设计、样本量相对有限(n=211)以及使用完整病例分析可能带来的偏倚等。未来需要通过多中心外部验证、前瞻性研究以及实时临床工作流整合来进一步确认其实用性。此外,在资源有限 settings 中实施此类模型的经济影响也需要评估。
总体而言,这项研究为儿童重症肺炎的早期预警提供了一种创新、准确且可解释的解决方案,有望在未来帮助临床医生更及时地识别和处理危重病例,最终改善患儿的生存率和预后。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号