
-
生物通官微
陪你抓住生命科技
跳动的脉搏
在线症状评估应用、大语言模型与公众自我分诊决策准确性的系统评价与比较研究
【字体: 大 中 小 】 时间:2025年03月27日 来源:npj Digital Medicine 12.4
编辑推荐:
为解决数字分诊工具准确性评估缺乏统一标准的问题,德国研究团队对19项研究进行系统评价,比较症状评估应用(SAAs)、大语言模型(LLMs)和公众的自我分诊准确性。研究发现SAAs准确率差异显著(11.5-90.0%),LLMs表现稳定(57.8-76.0%),公众准确率中等(47.3-62.4%)。该研究为数字健康工具的选择性应用提供了循证依据,发表于《npj Digital Medicine》。
在数字医疗蓬勃发展的今天,症状评估应用(Symptom-Assessment Applications, SAAs)和大语言模型(Large Language Models, LLMs)正逐渐成为公众健康管理的新工具。从英国NHS 111在线服务到德国PatientenNavi,这些数字分诊平台每年处理数百万次评估,号称能优化医疗资源配置、提升健康公平性。然而令人担忧的是,这些工具的准确性和安全性始终存在争议——某些应用可能将普通感冒误判为紧急状况,导致医疗资源浪费;又可能低估严重症状,造成延误治疗。更关键的是,现有研究往往孤立评估技术性能,却忽视了最重要的参照系:普通公众自身的分诊决策能力究竟如何?
来自德国的研究团队Marvin Kopka等人在《npj Digital Medicine》发表了一项开创性研究。他们系统筛选了1549篇文献,最终纳入19项研究进行荟萃分析,首次将SAAs、LLMs与公众的自我分诊准确性置于同一评估框架。研究采用QUADAS-2工具评估偏倚风险,通过标准化指标比较不同分诊级别(急诊/非急诊/自我护理)的决策准确性。数据来源包括真实患者案例(5项研究)和模拟病例(14项研究),覆盖23种SAAs、5种LLMs及近6000名公众样本。
研究结果部分呈现三大发现:
讨论部分指出,该研究颠覆了传统评估范式:当以公众表现为基准时,部分SAAs确实能提升决策质量,但效果高度依赖具体应用场景。例如,LLMs在区分急诊/非急诊时表现优异,却不擅长判断是否需要就医;而NHS 111在线等SAAs在识别自我护理案例方面更具优势。研究者强调,数字分诊工具不应被简单"推荐"或"禁用",而应根据具体决策需求选择性使用。
这项研究的重要意义在于:首次建立了数字分诊工具的"相对价值"评估体系,为精准医疗决策支持提供了科学依据。同时揭露了当前研究的方法学缺陷——80%研究使用模拟病例,且缺乏标准化的安全评估指标。作者呼吁建立包含治疗安全、不良事件和心理安全的"多层次安全概念",并推荐采用"RepVig框架"提升评估标准化程度。这些发现不仅指导临床实践,也为医疗AI监管政策制定提供了关键证据。
生物通微信公众号
知名企业招聘