GPT-4 优化大语言模型评估肌肉骨骼 MRI 扫描适用性:精准超越人类?

【字体: 时间:2025年03月01日 来源:Scientific Reports 3.8

编辑推荐:

  为评估肌肉骨骼 MRI 扫描申请的适用性,研究人员优化基于 GPT-4 的 LLM,其表现优于多数人类,或成临床决策助手。

  在医疗领域,磁共振成像(Magnetic Resonance Imaging,MRI)作为核心的影像学检查手段,能够为医生提供丰富的身体内部信息,帮助精准诊断疾病。然而,MRI 检查存在耗时较长、费用高昂的问题。近年来,诊断成像需求激增,导致大量不必要的 MRI 检查出现。这不仅大幅增加了医疗成本,还延长了患者的等待时间,甚至可能因错误判断检查时机而造成诊断延误或错误。
为了规范 MRI 检查的使用,美国放射学会(American College of Radiology,ACR)制定了适宜性标准,为医生判断 MRI 检查的必要性提供了依据。但在实际操作中,人工审核扫描订单是否符合标准是一项繁琐的任务。现有的辅助工具,如 iGuide、CareSelect imaging,不仅需要大量的人工数据录入,而且选项有限,难以满足复杂的临床需求。

在这样的背景下,大语言模型(Large Language Models,LLMs)的出现为解决这一难题带来了新的希望。LLMs 是先进的人工智能模型,能够对自然语言文本进行复杂处理,在医疗领域展现出了一定的应用潜力,例如 ChatGPT 可以回答美国医学执照考试(USMLE)的问题以及患者关于结肠镜检查的疑问。然而,LLMs 也存在容易产生幻觉等错误信息的问题,即可能将错误答案当作正确的输出,这在对准确性要求极高的医疗领域是一个重大挑战。

为了评估 LLMs 在医学影像学中的实际应用价值,来自新加坡总医院(Singapore General Hospital)、杜克 - 新加坡国立大学医学院(Duke-NUS Medical School)等机构的研究人员 Jin Rong Tan、Daniel Y. Z. Lim 等人开展了一项关于 LLMs 评估肌肉骨骼 MRI 扫描申请适用性的研究。该研究成果发表在《Scientific Reports》杂志上,为 LLMs 在放射学中的应用提供了重要参考。

研究人员开展这项研究主要运用了以下关键技术方法:
首先,基于 GPT-4 开发并优化了上下文感知的大语言模型(contextualized Large Language Model,cLLM),利用检索增强生成(Retrieval Augmented Generation,RAG)框架,为模型构建了来自 ACR 指南的特定领域知识库。其次,准备了包含 70 个虚构病例场景的测试数据集,这些病例由 2 名放射科医生围绕 ACR 指南生成,涵盖了各种常见和复杂的肌肉骨骼 MRI 检查申请情况,以及临床信息不足的病例。最后,通过定量和定性评估,将优化后的 cLLM 与标准 LLM、基线 cLLM 进行对比,并与不同临床经验的人类医生(包括两名肌肉骨骼放射科专科医生、两名放射科住院医师和一名骨科医生)的评估结果进行比较。

研究结果主要包括以下几个方面:

  1. 定量评估:优化后的 cLLM 在预测准确性上表现出色,准确率达到 92.86%,显著优于基线模型(61.43%)和标准 GPT-4 模型(51.29%)。在识别 “临床信息不足” 的病例方面,优化后的 cLLM 也表现突出,而标准 LLM 和基线 cLLM 在这方面表现较差。此外,所有 LLM 版本在原始数据集和重新排序后的数据集上的表现较为一致,文本顺序的调整对 LLM 的性能没有显著影响。
  2. 定性评估:临床专家对 LLM 输出的定性评估显示,LLM 的输出通常具有较高的可读性和可理解性,没有明显的语言错误,也未出现被认为具有危险性的内容。同时,优化后的 cLLM 在检索正确指南方面的准确率更高,在 70 个病例中仅有 7 例检索错误,而基线 cLLM 有 31 例检索错误。对于 “临床信息不足” 的病例,优化后的 cLLM 能够正确判断并避免检索指南,而基线 cLLM 则会从各种指南中检索信息,但由于信息不足无法确定最合适的指南。
  3. 与人类医生比较:与不同临床经验的人类医生相比,优化后的 cLLM 在整体准确性、宏平均精度、宏平均召回率和宏平均 F1 分数方面表现最佳,其准确性与除一名放射科医生外的所有人类和人工智能受访者相比均有显著差异(P<0.05)。基线 cLLM 的准确性(61.43%)高于标准 LLM(54.29%),但差异不具有统计学意义(P=0.24)。标准 GPT-4 LLM 的表现与骨科医生和一名放射科住院医师相似,且显著低于两名放射科医生和另一名放射科住院医师。在 “临床信息不足” 的病例中,非专家人类医生的表现较差,如骨科医生得分为 0/10,较低水平的放射科住院医师得分为 4/10。

研究结论和讨论部分指出,本研究表明基于上下文的 cLLM 在基于 ACR 适宜性标准评估肌肉骨骼 MRI 扫描申请的适用性方面表现良好。优化后的 cLLM 相较于基线 cLLM、标准 LLM 以及大多数人类医生,具有更好的性能。这意味着 cLLM 有很大潜力成为临床医生申请影像学检查时的决策支持工具,帮助减轻放射科审核扫描申请的负担。然而,研究也存在一些局限性,例如使用的是虚构的临床病例,而非包含异质性临床文档、更多临床信息不完整病例和非标准语言的真实世界数据集;评估的人类受访者数量有限;无法测试所有可能的输入以识别错误响应等。因此,cLLM 目前更适合作为人类的辅助工具,而非完全替代人类医生。未来的研究可以探索人机协作的效率,并且在 cLLM 的开发过程中,应使用更具挑战性的评估集,包括更多负面病例,以更好地评估模型的性能和抗幻觉能力。

总体而言,这项研究为 LLMs 在放射学中的应用提供了重要的实践依据和方向指引,虽然目前 cLLM 还存在一些不足,但随着技术的不断发展和优化,有望在未来的医疗领域发挥更大的作用,为提高医疗效率和质量贡献力量。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
生物通微信公众号
微信
新浪微博

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号