编辑推荐:
在医学教育领域,AI(人工智能)与 LLMs(大语言模型)发展迅速,但缺乏对其在土耳其医学专科培训入学考试表现的评估。研究人员评估了 ChatGPT 4 等四种模型在该考试中的表现,发现 ChatGPT 4 准确率最高。这为医学教育和评估提供了新方向。
在当今科技飞速发展的时代,人工智能(AI)和大语言模型(LLMs)如同一股新兴的浪潮,正逐渐席卷医学教育领域。以往,医学教育的知识获取渠道相对有限,信息更新速度也难以跟上医学领域的快速发展,而且传统的评估方式往往存在一定的局限性,难以全面、精准地考察学生的知识掌握程度和应用能力 。与此同时,LLMs 在医学场景中的应用潜力逐渐崭露头角,它们能够快速处理大量医学信息,为医学教育带来了新的曙光。然而,之前的研究大多聚焦于 LLMs 在欧美等地区医学考试中的表现,对于像土耳其这样具有独特医学教育体系和语言背景的国家,LLMs 的应用效果还缺乏深入研究。为了填补这一空白,来自巴斯肯特大学(Baskent University)的研究人员 Murat Ko?ak、Ali Kemal O?uz 和 Zafer Ak?al?开展了一项极具价值的研究,该研究成果发表在《BMC Medical Education》杂志上。
研究人员为了探究四种先进的大语言模型 ——OpenAI 的 ChatGPT 4、谷歌的 Gemini 1.5 Pro、Cohere 的 Command R + 和 Meta AI 的 Llama 3 70B,在土耳其医学专科培训入学考试中的表现,采用了一系列关键技术方法。他们从土耳其学生选拔和安置中心(Student Selection and Placement Centre)的官方网站获取了 2021 年 3 月 21 日土耳其医学专科培训入学考试的题目,这些题目涵盖基础医学科学和临床医学科学两部分,均为单选题形式。研究人员直接将这些土耳其语题目输入到各个模型的相应界面,模拟医学学生在实际场景中的提问方式,并且严格控制输入条件,确保评估的公平性。随后,依据官方公布的正确答案,利用 Microsoft Office Excel 和 Python 软件进行数据分析,通过未配对卡方检验等方法来比较不同模型在不同难度题目上的表现差异。
在研究结果部分,首先来看人类与 AI 的表现对比。参加 2021 年土耳其医学专科培训入学考试第一期基础医学科学测试的考生,平均正确答题数为 51.63 道;临床医学科学测试的平均正确答题数为 63.95 道 。而 AI 模型中,ChatGPT 4 表现最为出色,基础医学科学部分平均答对 103 道题,临床医学科学部分平均答对 110 道题,总体准确率高达 88.75%,显著超过人类考生。Llama 3 70B 总体准确率为 79.17%,Gemini 1.5 Pro 为 78.13%,二者表现也优于人类平均水平。Command R + 总体准确率仅 50%,在临床医学科学部分的表现显著低于人类平均水平。
接着分析不同模型在不同难度题目上的表现。随着题目难度增加,ChatGPT 4 的准确率仍能保持较高水平,在最难的题目上准确率接近 70%。Llama 3 70B 和 Gemini 1.5 Pro 的准确率则先上升后下降,在最难题目上分别约为 25% 和 20%。Command R + 的准确率随题目难度增加而下降,最难题目上仅约 15%。这表明 ChatGPT 4 受题目难度影响最小,而其他模型在应对复杂问题时还需要进一步提升。
从不同医学领域的答题情况来看,在基础医学科学的生物化学领域,ChatGPT 4 获得了满分,Llama 3 70B 和 Gemini 1.5 Pro 表现也不错,但 Command R + 准确率仅 50% 。在药理学、病理学和微生物学等领域,ChatGPT 4 和 Llama 3 70B 表现出色,准确率在 81% - 90% 之间。在临床医学科学的儿科领域,ChatGPT 4 接近满分,Llama 3 70B 紧随其后,Command R + 也有 43% 的准确率。在其他专科领域,如内科、普通外科等,各模型也有不同程度的表现。
在研究结论和讨论方面,研究表明这些 AI 模型在土耳其医学专科培训入学考试中的表现优于普通人类考生,尤其是 ChatGPT 4,展现出了卓越的性能。这一结果意味着 LLMs 在医学教育和评估中具有巨大的潜力,可以为医学教育资源相对匮乏地区的学生提供帮助,也为医学教育机构探索 AI 辅助教育策略提供了方向。然而,该研究也存在一定的局限性。例如,不确定考试题目是否在模型训练数据中出现过,模型可能存在基于训练数据的偏差,研究仅针对单选题,未测试模型在时间压力下的表现,且研究结果的普适性局限于土耳其语和当地医学教育体系。未来的研究需要进一步探索 LLMs 在更复杂、更真实场景下的表现,评估其处理开放式问题和伦理困境的能力,以及深入研究偏差和训练数据对其性能的影响 。这项研究为 AI 在医学教育领域的应用打开了一扇窗,虽然目前还存在一些有待解决的问题,但无疑为后续的研究和实践指明了方向,有望推动医学教育在 AI 技术的助力下实现新的跨越。