大型语言模型在美国医师执照考试中的临床推理能力评估:多模型基准测试与医学应用前景分析
《Scientific Reports》:Benchmarking large language models on the United States medical licensing examination for clinical reasoning and medical licensing scenarios
【字体:
大
中
小
】
时间:2025年12月04日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对AI在临床决策中的可靠性问题,系统评估了ChatGPT、DeepSeek、Grok和Qwen四种大型语言模型在USMLE(美国医师执照考试)中的表现。通过376道试题的多维度分析,发现DeepSeek在Step 2 CK中达到93%的准确率,显著优于人类考生基准。研究揭示了模型在数学推理与多模态整合中的共性盲区,并提出集成框架以降低临床误诊风险,为AI辅助医疗决策提供了关键基准。
随着人工智能技术席卷医疗领域,大型语言模型(LLMs)能否真正理解复杂临床场景已成为焦点问题。尽管早期研究显示ChatGPT可通过USMLE考试,但新一代模型如DeepSeek、Grok和Qwen的临床推理能力尚未经过系统评估。更关键的是,现有研究多局限于文本问答,而真实医疗决策常需整合影像、数据与文本信息——这种多模态推理能力正是AI落地的核心挑战。
为此,研究团队在《Scientific Reports》发表最新成果,首次对四种前沿LLMs进行全步骤USMLE基准测试。他们采用2023年7月发布的官方试题库,涵盖Step 1(基础医学)、Step 2 CK(临床知识)和Step 3(病例管理)共376道题目,并创新性地将试题分为纯文本(T)、文本+图像(TI)、文本+数学推理(TM)及三模态整合(ITM)四类。通过零样本提示策略,要求模型在回答后接受“是否确定”的追问,以评估其置信度稳定性。
关键技术方法包括:使用标准化提示框架呈现USMLE试题;通过人工专家小组(含4名健康领域研究者)对错误进行三类归因(概念误解、信息误读、推理错误);采用Fleiss’ Kappa评估评分者一致性(κ=0.85);利用卡方检验分析模型差异显著性。
DeepSeek在三阶段考试中均领先(Step 1: 89%,Step 2 CK: 93%,Step 3: 84%),其Step 2 CK表现甚至超越人类考生平均线(82%)。ChatGPT紧随其后,而Grok与Qwen准确率落后10-15个百分点。多模态题目成为普遍难点,如图像题平均准确率较文本题下降16%。
模型在血流动力学不稳定患者的治疗决策(如误选腺苷而非电复律)和副肿瘤综合征(如小细胞肺癌伴低钠血症)等场景出现系统性错误。Qwen因内容过滤机制拒绝回答两道影像题,暴露了安全机制与临床需求的矛盾。
仅1.60%的题目被所有模型答错,且错误重叠率低(ChatGPT/DeepSeek组Fleiss’ Kappa=0.0027),表明模型推理路径互补。研究者据此提出集成框架:当模型答案一致时直接采用,分歧时启动人工复核。
尽管DeepSeek表现出色,但其训练数据可能包含USMLE题目,难以区分真实推理与记忆效应。研究强调LLMs存在“过度自信幻觉”风险,如ChatGPT在30%的修正中将正确答案改为错误答案。团队建议将AI作为临床辅助工具而非决策主体,并制定三大风险防控策略(见表6):通过界面设计防范自动化偏见、明确人类医生终审责任、防止临床技能退化。
这项研究不仅建立了LLMs在医学考试中的新标杆,更通过精细的错误解剖揭示了AI临床应用的共性缺陷。其提出的多模型协同框架,为降低医疗AI误诊率提供了切实路径,而关于过度依赖风险的警示,为后续伦理规范设计敲响警钟。未来工作需引入真实临床数据集,并探索检索增强生成(RAG)技术能否突破多模态推理瓶颈。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号