编辑推荐:
为解决高原肺水肿(HAPE)严重程度评估缺乏客观有效工具的问题,研究人员开展了基于机器学习的 HAPE 风险分层模型研究。结果显示随机森林模型表现最佳,能精准识别重症患者。该研究为临床诊疗提供了重要支持。
在当今旅游和户外运动盛行的时代,高原旅游日益火爆,越来越多的人快速登上高原,高原肺水肿(High Altitude Pulmonary Edema,HAPE)这一严重威胁生命健康的疾病也愈发受到关注。HAPE 是由于人体快速暴露在高海拔环境中,因低气压缺氧引发的病症 。传统上,HAPE 的诊断依赖临床症状和影像学检查,然而评估其严重程度却常常带有主观性,缺乏精准的筛查工具。对于经验不足的医生而言,及时准确地诊断重症患者是一项挑战,一旦延误治疗,患者死亡率可高达 40 - 50%。因此,开发高效的早期筛查、风险分层及基于风险评估的治疗工具迫在眉睫。
在此背景下,西藏自治区人民医院、西藏自治区高原医学研究所等机构的研究人员罗布格桑(Luobu Gesang)、杨宗索娜(Yangzong Suona)等人开展了一项极具意义的研究。他们的研究成果发表在《BMC Medical Informatics and Decision Making》上。
研究人员采用了多种关键技术方法。首先,进行回顾性研究,收集了 2014 年 1 月至 2022 年 4 月西藏自治区人民医院收治的 508 例 HAPE 患者的数据,这些患者均符合从平原快速登上高原且首次确诊 HAPE 的纳入标准,同时排除了儿科病例、慢性阻塞性肺疾病、心力衰竭及癌症患者。其次,运用 R 语言进行统计分析,通过数据预处理,将数据集按 80:20 的比例划分为训练集和测试集;采用多种特征选择方法,如多分类逻辑回归模型(Multinomail logistic regression)的递归特征消除法(RFE)、随机森林模型(Random Forest)的特征重要性度量、决策树模型(Decision Tree)依据树结构选择重要变量;使用这三种模型在训练集上进行训练,并通过计算测试集的预测结果准确率、绘制受试者工作特征曲线(ROC)及曲线下面积(AUC)评估模型性能。
在研究结果方面,研究人员首先对患者的临床特征进行了分析。共收集到 336 例患者(266 名男性和 70 名女性),其中轻度 HAPE 患者 67 例,中度 240 例,重度 29 例。分析发现,多数基本临床和生命体征变量在训练组和验证组之间无显著差异,但恶心症状、心率(HR)、氧饱和度(SpO2)和 CT 扫描在不同严重程度组间存在显著差异。例如,重度组患者恶心症状发生率显著高于轻度和中度组;轻度组患者的 SpO2显著高于中度和重度组,而心率则显著低于这两组。
接着进行了预测因子选择和建模。利用 LASSO 模型确定了四个关键预测因子:肺部啰音、咳痰、心率和氧饱和度。之后基于这四个预测因子训练决策树和随机森林模型,结果显示心率、氧饱和度、肺部啰音和咳痰在模型中具有较高重要性。
随后对模型进行验证和评分工具开发。比较多分类逻辑回归、决策树和随机森林模型的性能,随机森林模型表现最佳,准确率达到 77.94%,在精度、召回率和 F1 评分上也优于其他模型。通过 ROC 曲线分析,随机森林模型在训练集和验证集上的分类性能和泛化能力均强于决策树模型,多分类逻辑回归模型在预测不同严重程度的 HAPE 时表现出较好的稳定性。基于随机森林算法得出每个预测因子的评分,分数低于 30 分为轻度疾病,30 - 49 分为中度疾病,50 分及以上为重度疾病。
最后进行 SHAP 分析,结果表明 “SpO2”“HR” 和 “肺部啰音” 等变量对模型预测有显著影响。
研究结论和讨论部分意义重大。该研究成功开发了基于机器学习的 HAPE 风险分层工具,证实肺部啰音、咳痰、心率和氧饱和度是评估 HAPE 严重程度的关键预测因子。尽管研究存在一定局限性,如单中心研究、回顾性设计、数据记录可能不完整、啰音评估主观性强以及缺乏外部验证等,但为后续研究指明了方向。未来可开展前瞻性研究,纳入实验室数据,开发临床决策支持系统。这一研究为临床医生早期准确识别重症 HAPE 患者提供了有力支持,有助于及时开展有效治疗,提高患者生存率,对改善 HAPE 患者的临床诊疗具有重要意义。