编辑推荐:
为探究人类与大语言模型(LLM)协作对脑 MRI 鉴别诊断的影响,研究发现其可提高诊断准确性,但也存在挑战。
在医学影像学领域,脑磁共振成像(MRI)的鉴别诊断对临床诊疗决策起着关键作用。精准地从 MRI 图像中确定相关的鉴别诊断,需要专业的解剖学、病理生理学知识,以及识别视觉模式和综合临床信息的能力。然而,传统的诊断方式面临诸多挑战。近年来,大语言模型(LLM)崭露头角,展现出在医学领域辅助诊断的潜力。一些研究对比了 LLM 的诊断建议与专家评估或确诊结果,发现 LLM 有一定的价值,但同时也存在如 “幻觉”(生成事实性错误信息)等问题。而且,人类用户与 LLM 系统在实际诊断过程中的复杂交互,尚未得到深入研究。在这种背景下,来自德国慕尼黑工业大学医学院的研究人员开展了一项研究,旨在探究人类与 LLM 协作对脑 MRI 鉴别诊断准确性和效率的影响 。该研究成果发表在《European Radiology》上。
研究人员采用了一系列关键技术方法:首先,选取 40 例脑 MRI 病例,这些病例均有明确诊断且具有一定挑战性。病例来源为当地成像数据库,时间跨度是 2016 年 1 月 1 日至 2023 年 12 月 31 日。同时,招募了 6 名平均神经放射学经验为 6.3 个月的放射科住院医师参与研究。其次,选用 PerplexityAI 作为聊天机器人界面,以 GPT-4 为模型进行搜索查询。研究采用交叉设计,让每位参与者分别通过传统互联网搜索和 LLM 辅助搜索,对 20 例病例进行诊断,判断出三个最可能的鉴别诊断 。在 LLM 辅助阅读前,还对参与者进行 10 - 15 分钟的培训。最后,通过两种评分系统评估诊断准确性,利用多种统计方法分析数据,并对 LLM 的日志进行审查,同时收集参与者的反馈。
下面来看具体的研究结果:
- 定量结果:通过二元评分和数字评分方法评估,LLM 辅助的脑 MRI 鉴别诊断准确性更高。二元评分中,LLM 辅助组正确诊断率为 61.4%(70/114),传统组为 46.5%(53/114),p = 0.033;数字评分中,LLM 辅助组中位数为 1,传统组为 0,p = 0.021。线性混合效应模型也证实了 LLM 辅助工作流程与更高的二元评分相关。不过,两组在解读时间和信心水平上没有显著差异。
- LLM 响应评估:对 113 例 LLM 辅助的病例进行分析,平均每个病例的 LLM 查询次数为 2.12 次,多数查询与可能的鉴别诊断相关。LLM 工具平均每次响应引用 13.0 个互联网来源,其中 72.0% 是期刊文章,每个病例的 LLM 响应平均给出 7.59 个鉴别诊断。但也发现,9.2% 的病例中读者提供的 LLM 提示存在错误或不准确信息,11.5% 的病例中 LLM 输出包含幻觉陈述 。进一步分析发现,在 LLM 响应包含正确诊断的 73 例病例中,读者识别出正确诊断的比例为 82.1%(60/73);在读者给出正确诊断的 70 例病例中,14.3%(10/70)的病例其正确诊断未包含在 LLM 响应中,这表明部分答案是通过额外的互联网研究找到的。
- 读者反馈和观察:问卷调查结果显示,参与者对 LLM 辅助工作流程的评价呈中等积极态度,他们倾向于在临床实践中使用 LLM 工具,对 LLM 响应质量的评价也较为积极,并且多数参与者认为 LLM 系统易于融入诊断工作流程。然而,他们也指出了 LLM 辅助鉴别诊断存在的一些挑战,如人类输入错误导致的不准确搜索结果,以及 LLM 基于无关临床信息产生的偏差等 。此外,参与者还提出了改进建议,例如增加语音交互功能和提高返回样本图像的准确性。
研究结论和讨论部分指出,LLM 辅助的工作流程相比传统互联网搜索,有提高脑 MRI 鉴别诊断准确性的潜力,但对解读时间和读者信心没有明显影响。研究中 LLM 幻觉的发生率为 5.4%,这表明即使是利用检索增强生成方法的 LLM 搜索引擎,也可能返回错误信息,且读者难以逐一验证大量引用来源。同时,研究发现读者在处理 LLM 响应时起着关键作用,需要对相关建议进行优先排序并通过互联网研究加以验证。研究还强调,应加强对人类与 LLM 协作的研究,而不是单独研究 LLM,传统的神经放射学专业知识在有效利用 LLM 方面仍然不可或缺。不过,该研究也存在一定局限性,如参与者仅为经验较少的放射科住院医师,研究在控制环境而非真实临床环境中进行等 。
总体而言,这项研究为脑 MRI 鉴别诊断中人类与 LLM 的协作提供了有价值的见解,为未来进一步优化这种协作模式、提高诊断准确性奠定了基础,也为医学影像学领域的发展指明了新的研究方向。