-
生物通官微
陪你抓住生命科技
跳动的脉搏
急诊科诊断新视角:ChatGPT模型迭代的初步评估及其临床效能比较
《Scientific Reports》:Preliminary evaluation of ChatGPT model iterations in emergency department diagnostics
【字体: 大 中 小 】 时间:2025年03月27日 来源:Scientific Reports 3.8
编辑推荐:
急诊科(ED)诊断面临高压力与复杂性挑战,本研究针对ChatGPT不同迭代模型(GPT-3.5/4/4o/o1)在30例真实急诊病例中的诊断性能开展系统评估。研究发现:1) GPT-4o-latest和o1-preview对首要诊断准确率提升至60%(p<0.01);2) 要求模型展示推理过程("thoughts")可使4o系列诊断准确率提升5.6-11.1%(p=0.03-0.04);3) 非典型临床表现(如无发热肺炎)仍是模型主要局限。该研究为AI辅助急诊决策提供了版本选择与提示工程的重要实证依据。
在人工智能席卷医疗领域的浪潮中,急诊科作为医疗决策的"前沿阵地",正面临前所未有的技术革新机遇。ChatGPT等大型语言模型(LLM)已展现出辅助临床决策的潜力,但模型快速迭代带来的性能变化却鲜有系统研究。更关键的是,这些"数字医生"能否在分秒必争的急诊环境中准确识别危急病症?面对非典型症状时是否可靠?这些问题直接关系到AI技术的临床应用价值。
美国西弗吉尼亚大学联合亚利桑那州立大学的研究团队在《Scientific Reports》发表了一项开创性研究,首次对ChatGPT各代模型(GPT-3.5/4/4o/o1系列)进行急诊诊断的"横向测评"。研究人员采用Ten Berg等建立的30例真实急诊病例数据集,通过API接口系统测试了12个模型版本在两种模式(含/不含推理过程)下的诊断表现,并特别关注了模型对非典型病例的处理能力。
关键技术方法包括:1) 使用包含30例真实急诊病例的基准数据集(源自Ten Berg等研究);2) 通过API访问12个ChatGPT模型版本(GPT-3.5/4/4o/o1系列);3) 设计两种测试模式(基础诊断vs诊断+推理);4) 采用关键词匹配法评估诊断准确性;5) 针对肺炎病例开展特征消融实验(修改发热记录)。
研究结果揭示多个重要发现:
《Performance on top three diagnoses》显示早期GPT-3.5-turbo-1106在包含正确诊断方面表现最佳(80.0%),而要求展示推理可使4o-2024-05-13准确率提升至83.3%,创下最高记录。
《Performance on leading diagnosis》发现GPT-4o-latest和o1-preview对首要诊断准确率达60%,显著优于GPT-3.5-turbo-0125(47.8%, p<0.01)。特别值得注意的是,要求模型展示推理使4o-2024-05-13对首要诊断准确率从45.6%提升至56.7%(p=0.03)。
《Performance on cases stratified by difficulty》暴露模型在13例疑难病例中表现欠佳,最佳模型chatgpt-4o-latest首要诊断准确率仅38.5%。针对三例无发热肺炎病例的消融实验证实,添加39°C体温记录后,模型全部正确识别肺炎,揭示非典型表现是AI诊断的主要瓶颈。
这项研究为AI在急诊医学的应用提供了重要路线图:首先,模型迭代确实提升首要诊断准确率,但代价是稍逊的鉴别诊断广度;其次,"思考可视化"提示策略能有效提升4o系列表现,但对自带推理链的o1系列无效;最后,非典型临床表现仍是当前模型的"阿喀琉斯之踵"。这些发现不仅为急诊科AI工具选择提供实证依据,更揭示了未来模型优化的关键方向——既要增强非典型病例识别能力,也需根据临床场景(初筛vs确诊)匹配不同特性的模型版本。当技术演进遇上生命救治,这项研究为AI与急诊医学的"精准联姻"奠定了科学基石。
涓嬭浇瀹夋嵎浼︾數瀛愪功銆婇€氳繃缁嗚優浠h阿鎻ず鏂扮殑鑽墿闈剁偣銆嬫帰绱㈠浣曢€氳繃浠h阿鍒嗘瀽淇冭繘鎮ㄧ殑鑽墿鍙戠幇鐮旂┒
10x Genomics鏂板搧Visium HD 寮€鍚崟缁嗚優鍒嗚鲸鐜囩殑鍏ㄨ浆褰曠粍绌洪棿鍒嗘瀽锛�
娆㈣繋涓嬭浇Twist銆婁笉鏂彉鍖栫殑CRISPR绛涢€夋牸灞€銆嬬數瀛愪功
知名企业招聘
今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号