编辑推荐:
研究人员为预测高流量鼻导管(HFNC)治疗结局,对比机器学习(ML)模型与临床指标,发现 ML 模型更精准,意义重大。
急性低氧性呼吸衰竭治疗困境与新希望
在医疗领域,急性低氧性呼吸衰竭(AHRF)是一个棘手的问题。高流量鼻导管(HFNC)治疗对 AHRF 患者来说,本是一种不错的选择,它能改善患者的氧合情况,增加患者不使用呼吸机的天数,还能降低插管风险和死亡率。然而,并非所有患者都能通过 HFNC 治疗成功康复。如果不能及时发现哪些患者可能治疗失败,就可能导致延迟插管和机械通气,进而引发患者自我造成的肺损伤(P-SILI),甚至增加 ICU 死亡率。
目前,临床医生在识别 HFNC 治疗失败风险的患者时,面临着很大的挑战。虽然有各种基于临床指标提出的阈值,像心率与脉搏血氧饱和度(SpO2)的比值、呼吸频率氧合指数(ROX)及其变体、简化急性生理学与慢性健康评估 II(APACHE II)等,但这些指标存在诸多问题。它们的最佳阈值并不明确,在外部数据集上的预测准确性也缺乏验证,而且在促使治疗升级方面效果有限。
为了解决这些问题,来自英国华威大学、意大利摩德纳大学等多个机构的研究人员展开了深入研究。他们的研究成果发表在《Critical Care》上,为临床治疗带来了新的希望。
研究方法:多管齐下探索最优解
研究人员进行了一项回顾性研究,使用了多个数据集。内部训练和验证数据来自意大利摩德纳大学医院呼吸 ICU 的两项试点研究,涉及 184 例 AHRF 患者。外部验证数据则来自巴西的 RENOVATE 试验(包含 510 例患者),以及美国的 MIMIC-IV 和 eICU 数据库(分别有 40 例和 17 例患者) 。
在研究过程中,研究人员收集了患者在 HFNC 治疗前或开始时(时间点 T0)以及治疗开始 2 小时后(时间点 T1)的多项特征,包括年龄、序贯器官衰竭评估(SOFA)评分、ROX 指数、心率、呼吸频率、SpO2、SpO2/FiO2比值、PaO2/FiO2比值和二氧化碳分压(PaCO2)等。HFNC 治疗失败被定义为在开始治疗 24 小时内需要升级治疗,如采用无创通气(NIV)、插管和机械通气(MV)或死亡。
研究人员开发并评估了多种机器学习(ML)模型,包括支持向量机(SVM)、决策树、逻辑回归、高斯朴素贝叶斯、随机森林、XGBoost 和 lightGBM。他们使用遗传算法进行与结局相关的特征处理,利用 Ray Tune 和异步连续减半算法(ASHA)基于分布式 GPU 对超参数进行微调。为了评估模型性能,采用了嵌套留一法交叉验证(LOOCV)和重复嵌套五折交叉验证等方法,并通过准确性、真阳性率(敏感性)、真阴性率(特异性)和受试者工作特征曲线下面积(AUC 评分)等指标进行评估。
研究结果:机器学习模型优势显著
- 患者特征差异:在内部训练数据集中,184 例患者里有 68 例(37%)HFNC 治疗失败。失败组患者在各时间点的 HACOR 评分、呼吸频率、FiO2更高,ROX 指数、SpO2/FiO2和 PaO2/FiO2更低。在 T1 时间点,两组的 PaCO2有差异,而在 HFNC 开始时差异不明显。治疗前或开始时评估的 SOFA 评分,两组间也存在一定差异,但其他人口统计学和临床特征无显著差异。
- 预测性能比较(不含动脉血气测量):在开发的 ML 模型中,SVM 在内部和外部验证中均表现出最高的平衡准确性。在不使用动脉血气(ABG)测量数据训练 SVM 模型时,内部验证中,LOOCV 下其准确性达 90%、敏感性 88%、特异性 91%、AUC 为 0.93;嵌套五折交叉验证下,准确性为 87%(95% CI:76 - 95%)、敏感性 88%(95% CI:71 - 100%)、特异性 89%(95% CI:76 - 97%)、AUC 为 0.87(95% CI:0.78 - 0.97) 。外部验证中,其准确性、敏感性、特异性均为 73%,AUC 为 0.79。相比之下,目前可用的临床指标中,T1 时间点的 ROX 和 ROX - HR 表现相对较好,但准确性仅为 64%,且校准度不如 SVM 模型。
- 排除特定患者后的性能变化:排除 SpO2>97% 的患者后,与 SpO2相关的指标在外部验证中的性能有所提高,如 ROX - HR 指数准确性从 67% 提高到 70%,开发的 ML 模型准确性也从 73% 提高到 75%,且 ML 模型在整体准确性和辨别能力上仍优于所有临床指标。
- 预测性能比较(包含动脉血气测量):当训练数据集中包含 ABG 测量数据时,SVM 模型在内部和外部验证中依然表现最佳。内部验证中,LOOCV 下准确性 92%、敏感性 94%、特异性 92%、AUC 为 0.96;嵌套五折交叉验证下,准确性 89%(95% CI:82 - 97%)、敏感性 89%(95% CI:74 - 100%)、特异性 88%(95% CI:77 - 100%)、AUC 为 0.89(95% CI:0.80 - 0.98) 。外部验证中,在 MIMIC - IV/eICU 数据集上,准确性 83%、敏感性 84%、特异性 82%、AUC 为 0.82。而临床指标中,mROX(T1)在外部验证中预测性能最高,但准确性也仅为 70%,校准度同样不如 SVM 模型。
- 不同时间点测量的影响:临床指标在 T1 时间点测量的整体准确性、敏感性、特异性和 AUC 比 T0 时间点更高,说明 T1 时间点测量的指标对治疗结局的预测更可靠。SVM 模型使用 T1 时间点测量数据训练比仅用 T0 数据训练的预测更可靠,同时使用两个时间点数据训练,预测准确性进一步显著提高。
- 模型可解释性及重要测量指标:通过 SHAP 总结图和排列重要性分析模型可解释性。结果表明,HFNC 开始 2 小时后的呼吸频率(RR)和 PaO2/FiO2比值是预测 HFNC 失败的最强因素。无论模型是否有 ABG 数据,SpO2的重要性始终较低。当有 ABG 测量数据时,PaO2/FiO2比值在模型中具有重要价值。较高的 T1 时间点 PaCO2值有助于模型预测 HFNC 成功,低 PaCO2值则与 HFNC 失败相关。
研究结论与意义:开启精准治疗新篇章
这项研究首次开发了经外部验证的 ML 模型,用于预测 HFNC 治疗结局。SVM 模型的准确性优于目前作为 HFNC 治疗结局潜在预测指标的所有临床指标。研究还明确了不同患者测量指标在预测 HFNC 结局中的相对重要性,当有 ABG 测量数据时,PaO2/FiO2比值在 ML 模型中具有重要预测价值。此外,ML 模型能利用测量数据的趋势进行预测,这是现有临床指标所不具备的能力。
虽然该研究存在样本量较小、外部验证队列受限等局限性,但基于机器学习模型的实时决策支持工具,虽不能替代临床判断,却能为临床医生提供有价值的帮助,及时识别 HFNC 治疗失败高风险患者,以便及时调整或升级治疗方案。这一研究成果为急性低氧性呼吸衰竭患者的治疗带来了新的思路和方法,有望推动临床治疗向更加精准化的方向发展。