机器学习在急诊科风险分层中的应用(MARS-ED):一项随机对照试验
《Nature Communications》:Machine learning for risk stratification in the emergency department (MARS-ED): a randomized controlled trial
【字体:
大
中
小
】
时间:2025年12月02日
来源:Nature Communications 15.7
编辑推荐:
本研究针对急诊科(ED)拥挤、风险分层工具通用性差等问题,开展了MARS-ED随机对照试验。结果表明,基于机器学习的RISKINDEX模型对31天死亡率的预测准确性(AUROC 0.84)优于或等同于临床直觉及传统评分(NEWS、APACHE II、SOFA),但其临床整合并未改变诊疗决策或患者结局,凸显了预测准确性之外,模型可操作性与临床整合的重要性。
急诊科(Emergency Department, ED)作为医院救治急危重症患者的前沿阵地,正面临着日益严峻的挑战。全球范围内,急诊就诊人次持续攀升,加之人口老龄化趋势,导致急诊科拥挤现象普遍,患者等待时间延长,医疗决策的复杂性增加,进而提高了不良结局的风险。在这种高压、快节奏的环境中,对患者进行快速而准确的风险分层,识别出那些真正需要优先处理和密切监护的高危患者,对于优化资源配置、改善患者预后至关重要。
目前,急诊科的风险分层在很大程度上依赖于医生的临床直觉,并辅以一些客观指标,如生命体征和实验室检查结果。为了标准化这一过程,辅助医生在多任务并行的急诊环境中做出决策,一些传统的临床预测工具应运而生,例如国家早期预警评分(National Early Warning Score, NEWS)、急性生理与慢性健康评价II(Acute Physiology and Chronic Health Evaluation II, APACHE II)和序贯器官衰竭评估(Sepsis-related Organ Failure Assessment, SOFA)评分。这些工具旨在补充临床直觉,但它们也存在明显的局限性:往往针对特定患者群体开发,限制了其普适性和精确性;并且通常需要输入大量信息(包括生命体征和非常规实验室检查结果),这在急诊科的繁忙工作中难以保证准确、及时地完成。此外,尽管预测模型的研究不断深入,但将其成功整合到临床实践中的进展相对缓慢。
为了满足对更易获取、普适性更强的预测工具的需求,基于机器学习(Machine Learning, ML)的预测工具逐渐崭露头角。已有研究表明,常规实验室检查结果能够构建出有前景的预后模型。例如,Horne等人的开创性工作利用全血细胞计数和基础代谢谱等常规检验,开发出了对死亡率具有高度预测能力的风险评分,为现代人工智能(Artificial Intelligence, AI)驱动的临床决策支持工具奠定了重要基础。沿着这一方向,研究人员近期开发了RISKINDEX,一种基于机器学习的风险评分,用于评估急诊科患者的风险。该模型仅基于患者年龄、性别以及医生开具的常规实验室检验结果,来预测患者的31天全因死亡率。其输出值为0到100之间的一个数值,对应个体患者的31天死亡概率。当急诊科患者被开具至少四项实验室检查时,RISKINDEX会随检验结果自动计算并可供医生查看,旨在帮助简化和标准化决策过程。尽管RISKINDEX已在其他三家医疗中心得到外部验证,显示出对31天死亡率持续优异的预测准确性,但将其整合到常规急诊工作流程中,是否能超越临床直觉和传统预测工具,尚属未知。
为了回答这个问题,研究团队设计了“急诊科风险分层机器学习(Machine learning for risk stratification in the emergency department, MARS-ED)”研究。这是一项前瞻性、随机对照试验,旨在评估RISKINDEX的预后准确性及其临床影响。随机对照试验(Randomized Controlled Trial, RCT)设计具有双重优势:一方面,通过最小化因使用RISKINDEX而触发的临床行动所带来的混杂效应,可以更纯粹地评估其预测性能;另一方面,也能直接评估其对临床结局的影响。
本研究的主要发现是:RISKINDEX在统计学上达到或超过了临床直觉和传统预测工具的预后准确性,但其整合到常规护理中并未改变临床决策或结局。这清晰地表明,预后准确性本身并不足以产生临床影响。
为了开展这项研究,研究人员运用了几个关键的技术方法。研究在荷兰马斯特里赫特大学医学中心加(Maastricht University Medical Center+, MUMC+)的急诊科进行,纳入标准为年满18岁、由内科专家接诊且至少进行了4项实验室检查的成年患者。通过计算机生成的置换区组随机化方法,将1303名参与者按1:1的比例分配至干预组(接受标准护理加RISKINDEX结果展示)或对照组(仅接受标准护理)。预后准确性的评估通过计算受试者工作特征曲线下面积(Area Under the Receiver Operating Characteristics Curve, AUROC)和精确召回曲线下面积(Area Under the Precision-Recall Curve, AUPRC)进行比较。临床影响则通过问卷调查评估医生对RISKINDEX的感知价值、预测结果与医生预期的吻合度以及是否引发治疗计划变更。
主要分析:RISKINDEX的预后准确性和临床影响
为了评估RISKINDEX在常规急诊工作流程中的表现,研究人员将其对31天死亡率的预测准确性与急诊科医生的临床直觉进行了比较。结果显示,RISKINDEX表现出很高的预后准确性,AUROC达到0.84(95%置信区间CI: 0.78-0.90)。这一表现统计学上达到或超过了急诊医生临床直觉的准确性。医生的临床直觉通过三个问题来评估:“您对这位患者的健康状况有多担忧?”(关注问题,AUROC 0.74)、“您认为这位患者的病情严重程度如何?”(严重程度问题,AUROC 0.76)以及“如果这位患者在31天内死亡,您会感到意外吗?”(意外问题,AUROC 0.73)。RISKINDEX的AUPRC为0.33,而医生直觉问题的AUPRC在0.20到0.22之间。对7天死亡率的预测准确性分析显示了类似的结果。
尽管RISKINDEX具有较高的预后准确性,但它并未导致治疗策略的改变。在干预组的644名患者中,仅有1名患者(0.16%)因RISKINDEX结果高于医生预期而被重新评估。有趣的是,RISKINDEX的预测结果仅在大约一半的情况下(46.8%)与医生的预期相符。在其余情况下,其预测要么高于(26.6%)要么低于(24.6%)医生的预期。
次要分析:与传统临床预测工具的比较、临床结局和可行性
RISKINDEX对31天死亡率的预测准确性高于所选的传统临床预测工具。其AUROC显著高于NEWS评分(AUROC 0.65)、APACHE II评分(AUROC 0.65)和SOFA评分(AUROC 0.75)。这些传统评分的AUROC与既往研究报告的相似。
实施RISKINDEX对临床结局没有产生影响,反映在治疗计划、住院率、住院时间和重症监护室(Intensive Care Unit, ICU)入住率均无变化。这与一项亚分析结果一致,即医生对RISKINDEX的感知附加价值较低(中位评分2分,满分10分)。值得注意的是,在被认为是中高风险的患者中,RISKINDEX的感知价值有所增加。
这项前瞻性随机对照研究显示,基于机器学习的RISKINDEX在整合到急诊工作流程后,其预后性能在统计学上达到或超过了临床直觉和知名临床预测工具。然而,尽管具备这种统计学上的高性能,RISKINDEX并未改变治疗计划或临床结局。
研究团队报告了五项主要发现:首先,RISKINDEX对31天死亡率具有稳健的预测准确性。其次,其预测准确性显著优于三种传统预测工具。第三,RISKINDEX的潜在益处因医生的经验水平而异,经验较少的医生可能从中获益最大。第四,RISKINDEX的预测仅约半数与医生预期相符,且医生感知价值低。第五,尽管预测准确性高,但缺乏临床影响。
这种预后准确性与临床影响之间的差距可能源于多个原因。RISKINDEX预测的是31天死亡率,而急诊科的许多决策可能更关注短期结局(尽管事后分析显示对7天死亡率的预测准确性相似)。更重要的是,这一差距凸显了临床医生与预测工具(无论是AI还是非AI)互动中的关键挑战。预测工具并非孤立运作,它们依赖并补充医生的直觉和专业判断。RISKINDEX预测与医生预期之间的显著不一致,以及由此导致的低响应率,表明仅靠准确性不足以赢得信任和促进行动。
因此,本研究结果强烈主张在模型开发和实施过程中均采用以用户为中心的设计。未来的研究应考虑将预测目标重新定位为急诊科可操作的决策(如7天不良结局、入院与出院决策、是否需要早期升级治疗),并与急诊医生共同确定;探索将0-100的评分转化为更具指导性的、与阈值相关的建议(如结合明确行动和可接受漏诊率的“排除风险”和“高风险”切点);提供患者层面的解释和可靠性信息;并优化实施时机(如在实验室结果回报时立即呈现),以在时间压力下最大化可操作性。
该研究也存在一些局限性,例如作为单中心研究可能影响结果外推性,采用便利抽样可能引入选择偏倚(尽管与同期未纳入患者比较未发现重要差异),以及实施策略未能产生临床影响,这本身为未来AI模型实施研究提供了重要的“反面教材”。
总之,MARS-ED试验证明,机器学习模型RISKINDEX在预测准确性上可以超越传统评分并媲美甚至超越临床直觉,但若缺乏可操作性、时效性和临床医生的信任,这种统计性能的提升无法转化为临床影响的改善。未来的努力方向应将准确的预测与以用户为中心、与临床决策紧密关联的干预措施结合起来,并在试验中不仅评估预测性能的提升,更要衡量其对医生行为、患者结局和成本效益的实际改变。这项研究发表于《Nature Communications》,为急诊医学领域人工智能的应用提供了深刻见解,强调了从“预测准确”到“临床有用”的转化之路仍需跨越关键障碍。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号