LLMs 在医学教育中的准确性:与医学教师一致性测试的证据 —— 探寻 AI 辅助医学教育的可靠之路

《BMC Medical Education》:Accuracy of LLMs in medical education: evidence from a concordance test with medical teacher

【字体: 时间:2025年03月27日 来源:BMC Medical Education 2.7

编辑推荐:

  为评估生成式人工智能(Generative AI)在医学教育中应用的准确性,保障患者安全,研究人员开展了关于 ChatGPT、Gemini 和 Copilot 回答医学选择题(MCQs)准确性的研究。结果显示 ChatGPT 准确性最高(70%),但 LLMs 整体准确性与医学教师相比仍较低,该研究为 LLMs 在医学教育中的应用提供重要参考。

  在医学教育领域,过去几十年间,计算机技术的应用日益广泛,像虚拟现实(VR)、增强现实(AR)以及计算机辅助学习(CAL)等技术,给医学教学带来了新的变革。这些技术让传统教学方式焕然一新,为医学生和医学专业人士提供了更优质的学习体验,帮助他们更好地掌握复杂的医学知识和技能。然而,随着生成式人工智能(Generative AI)的兴起,新的问题也随之而来。
生成式人工智能可以根据特定的提示或输入,生成文本、图片、视频等各种数据。在医学教育领域,它有着巨大的应用潜力,但同时也存在诸多不确定性。大语言模型(LLMs)作为其中的代表,如 ChatGPTGeminiCopilot 等,虽然在一些任务中表现出色,但它们在医学教育中的准确性究竟如何,是否能真正帮助学生获取准确的医学知识,保障患者安全,这些都亟待研究。

在此背景下,来自 Datta Meghe Institute of Higher Education & Research、Gulf Medical University、Ben-Gurion University of the Negev 和 Shamoon College of Engineering 的研究人员展开了相关研究。该研究成果发表在《BMC Medical Education》上。

为了探究这些 LLMs 在医学教育中的表现,研究人员采用了交叉 - sectional、observational study 的研究方法。他们从美国医学执照考试(USMLE)的过往材料中随机选取了 40 道选择题(MCQs),让 ChatGPT(GPT-4o)、Gemini(1.5 Pro)、Copilot(GPT-4)以及一位有内科研究生毕业经验的医学教师分别作答。

研究中使用了 Fleiss’ Kappa 检验和 Cohen’s Kappa 检验这两种关键技术方法。Fleiss’ Kappa 检验用于确定四个回答者(3 个 LLMs 和 1 名医学教师)之间的一致性程度,它能量化超出随机概率的一致性程度,评估整体的一致性。而当 Fleiss’ Kappa 检验结果显示一致性不佳时,就使用 Cohen’s Kappa 检验来进行两两比较,分析各个模型与医学教师回答之间的一致性。

研究结果主要分为以下几个方面:

  • 模型准确性对比:在回答这 40 道选择题时,ChatGPT 的准确率最高,达到 70%;Copilot 次之,为 60%;Gemini 表现最差,只有 50%。这表明 ChatGPT 的回答与专家知识的契合度最高,而 Gemini 的一致性较低。
  • 一致性分析:通过 Fleiss’ Kappa 检验得出的值为 -0.056,这说明四个回答者之间的一致性较差,模型提供的答案存在不一致性,可靠性也有所不同。进一步使用 Cohen’s Kappa 检验进行两两比较发现,ChatGPT 与医学教师的一致性最高(Kappa =0.843),表现出很强的可靠性;Copilot(Kappa =0.688)表现中等;Gemini 的一致性最低(Kappa =0.531) 。
  • 一致性模式和关键观察:研究发现,所有四个回答者在 21 个案例中达成一致,这也显示出在生成式人工智能和医学教师之间存在明显的不一致。整体结果表明 ChatGPT 在与医学教师的一致性方面表现最佳,而 LLMs 的回答存在较大差异,需要进一步改进才能更好地应用于医学教育。

研究结论和讨论部分指出,在回答医学问题时,ChatGPT 在三个模型中表现最为出色,Copilot 在某些特定领域(如解释生化数据)有一定潜力,而 Gemini 则表现相对较弱。然而,即使是表现最好的 ChatGPT,与医学教师相比,其准确率也仅为 84%,这意味着通用的 LLMs 在医学教育中的准确性还有待提高,使用时需要谨慎。同时,研究还发现 LLMs 存在一些局限性,比如可能会重现训练数据中的偏差,产生 “幻觉” 现象,以及决策过程缺乏透明度等问题。

该研究的重要意义在于,为评估不同 LLMs 在医学教育中的准确性提供了一种方法和参考依据。研究结果提醒医疗专业人员在医学教育中要谨慎使用通用的 LLMs,并且建议通过领域特定的数据对其进行微调,以提高准确性。此外,也为后续研究指明了方向,如探索领域特定的 LLMs(如 Med-PaLM)在医学教育中的表现,扩大数据集以更全面地评估 AI 能力,研究微调对通用 LLMs 可靠性的影响,以及评估 AI 生成回答的可解释性和推理模式等。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
生物通微信公众号
微信
新浪微博

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号