人工智能在临床教育中的应用:评估全科医师对ChatGPT-4o生成幻觉的识别能力

《BMC Medical Education》:Integrating AI into clinical education: evaluating general practice trainees’ proficiency in distinguishing AI-generated hallucinations and impacting factors

【字体: 时间:2025年03月20日 来源:BMC Medical Education 2.7

编辑推荐:

  本研究聚焦于全科医师训练生对ChatGPT-4o生成幻觉的识别能力,揭示了其在复杂临床场景中的识别挑战,为医学教育中人工智能的合理应用提供了重要见解。

  随着人工智能技术的飞速发展,其在医学领域的应用日益广泛。然而,AI生成的幻觉(即看似合理但实则错误的信息)可能对临床决策产生误导。为评估全科医师训练生对AI生成幻觉的识别能力,国内研究团队开展了一项多中心横断面调查研究,揭示了训练生在复杂临床场景中识别幻觉的困难,并探讨了影响其识别能力的因素。该研究结果对于优化AI在医学教育中的应用具有重要意义,论文发表在《BMC Medical Education》。

研究背景与意义

在当今数字化时代,人工智能(AI)正逐渐成为医学教育和临床实践中的重要工具。AI系统,尤其是大型语言模型(LLMs),如ChatGPT,因其强大的语言生成能力而备受关注。然而,这些模型在生成信息时可能会出现“幻觉”,即生成看似合理但实则错误的内容。这种现象在医学领域尤为危险,因为它可能导致误诊或错误的治疗建议。全科医师作为患者健康的第一道防线,需要具备识别这些幻觉的能力。然而,目前对于全科医师训练生在这一方面的研究还相对较少。因此,本研究旨在评估全科医师训练生对ChatGPT-4o生成幻觉的识别能力,并探讨影响其识别能力的因素,以期为医学教育中AI的合理应用提供科学依据。

研究方法

本研究采用多中心横断面调查设计,共纳入142名全科医师训练生,他们均来自中国南北不同地区的四家医院。研究中使用了ChatGPT-4o(一种优化后的GPT-4模型)生成的模拟临床实践回答,并由专家团队对这些回答进行准确性和一致性的评估。研究中采用了信号检测理论(SDT)来分析数据,通过计算命中率(HR)、误报率(FAR)、敏感性(d')和响应偏差(β)等指标来评估训练生对幻觉的识别能力。此外,研究还通过二元逻辑回归分析探讨了影响训练生识别能力的因素。

研究结果

研究结果显示,ChatGPT-4o的整体准确率为80.8%,但在经过人类专家验证后,其准确率略微下降至80.1%。在专业实践领域(科目4),ChatGPT-4o的准确率仅为57.0%,经过验证后进一步降至44.2%。研究共识别出87个AI生成的幻觉,主要出现在应用和评估层面。全科医师训练生对这些幻觉的平均识别准确率为55.0%,平均敏感性(d')为0.39。研究还发现,较短的响应时间、较高的自评AI理解能力和更频繁的AI使用与更严格的错误检测标准相关。

研究结论与讨论

本研究得出的结论是,全科医师训练生在识别ChatGPT-4o生成的幻觉方面存在挑战,尤其是在复杂临床场景中。这突显了提高AI素养和批判性思维技能的重要性,以确保AI在医学教育中的有效整合。研究还发现,训练生在评估复杂临床场景时倾向于采用更严格的标准,这可能与他们在高风险情境下对AI的谨慎态度有关。此外,研究强调了在医学教育中评估学生识别幻觉能力的重要性,这对于设计相关的培训项目具有重要意义。尽管本研究取得了一些有意义的结果,但也存在一些局限性,例如研究样本量较小,且仅限于中国南北地区的四家医院。未来的研究需要进一步扩大样本量,并探索不同地区和不同教育背景下的全科医师训练生对AI生成幻觉的识别能力。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
生物通微信公众号
微信
新浪微博

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号