编辑推荐:
为评估 GPT-3.5、GPT-4 和 GPT-4o 在中国国家医学考试(NMLE)中的表现,探索其在医学教育和临床应用中的价值,研究人员用 2020 和 2021 年 NMLE 真题测试模型。结果显示 GPT-4o 准确率最高,该研究为 AI 在医学领域应用提供重要参考。
在当今科技飞速发展的时代,人工智能(AI)的浪潮正席卷各个领域,医学领域也不例外。ChatGPT 等大语言模型(LLM)自问世以来,凭借其强大的自然语言处理能力,吸引了众多医学研究者的目光。人们期望这些模型能成为医学教育的得力助手,帮助医学生快速获取知识、提升学习效率;也希望它们能在临床实践中发挥作用,辅助医生进行诊断、分析病情,缓解医疗资源紧张的现状。
然而,现实却不尽如人意。虽然 ChatGPT 在一些英文医学考试中取得了不错的成绩,比如通过了美国医学执照考试(USMLE) ,但在处理非英语医学考试时却困难重重。像中国国家医学考试(National Medical Licensing Examination,NMLE)、中国药剂师和护士执照考试,以及韩国医学执照考试等,ChatGPT 均未能通过。这背后的原因复杂多样,语义和文化差异、各国考试内容与法规的不同,都成为了阻碍。而且,ChatGPT 的回答并不总是准确无误,还可能出现误导性信息,这在严谨的医学领域是极其危险的。
为了深入了解大语言模型在非英语医学考试中的真实水平,探索其在医学教育和临床应用中的潜力,来自青岛大学附属泰安中心医院康复医学中心等机构的研究人员开展了一项重要研究。他们将研究成果发表在了《Scientific Reports》上。
研究人员主要采用了数据收集、模型测试和统计分析这几种关键技术方法。他们收集了 2020 年和 2021 年中国国家医学考试(NMLE)的 600 道真题,这些题目涵盖了 A1、A2、A3/A4、B1 这几种不同的题型,分布在四个单元,全面考查了医学生的专业知识和技能。接着,研究人员通过 OpenAI 官方网站的聊天界面,使用 GPT-3.5、GPT-4 和最新的 GPT-4o 这三款模型对这些题目进行作答,作答时将温度参数固定为 0.7,以减少回答的变异性。最后,他们运用 SPSS 23 软件进行统计分析,对比不同模型的表现。
下面来看看具体的研究结果:
- 总体分析:在 2020 年的 NMLE 测试中,GPT-3.5、GPT-4 和 GPT-4o 的总体准确率分别为 50.5%、74.7% 和 84.2%;2021 年测试中,这一数据分别为 50.8%、73.2% 和 88.2%。GPT-4o 的准确率显著高于 GPT-3.5 和 GPT-4,GPT-4 也明显优于 GPT-3.5,这些差异具有统计学意义(P<0.001) 。这表明随着模型的迭代升级,其在医学考试中的表现越来越好,GPT-4o 展现出了强大的实力。
- 按题型分析:2020 年和 2021 年的测试中,在所有题型(A1、A2、A3/A4、B1)上,三款模型的准确率都存在显著差异(P<0.001) 。其中,GPT-3.5 在 B1 型题上表现最差,2020 年和 2021 年的准确率分别仅为 33.8% 和 40%。GPT-4 在 2020 年 A3/A4 型题和 2021 年 B1 型题上,与 GPT-3.5 的准确率差异不显著。而 GPT-4o 在所有题型上都表现出色,准确率均超过 80%,在案例分析(A3/A4)和标准匹配(B1)题上更是超过了 85%。这说明 GPT-4o 在处理复杂题型方面具有明显优势,而 GPT-3.5 和 GPT-4 在复杂题型上还存在较大的提升空间。
- 按单元分析:2020 年和 2021 年,在所有单元(Unit 1 - Unit 4)上,三款模型的准确率同样存在显著差异(P<0.001) 。GPT-4o 在各单元的表现均优于 GPT-4,尤其在 2021 年,除了 Unit 1 和 Unit 3,其他单元的准确率都更高。在 2021 年 Unit 3(消化系统和呼吸系统相关内容)的考试中,GPT-4o 的准确率高达 94.7%,表现十分突出。这体现出 GPT-4o 在不同医学知识领域都有较好的掌握程度,但不同单元的准确率差异也反映出大语言模型在不同医学专科上的能力有所不同。
综合上述研究,我们可以得出结论:在此次针对中国国家医学考试(NMLE)的研究中,GPT-4o 在总体准确率、复杂问题解决和多单元评估方面均优于 GPT-4 和 GPT-3.5。这一结果充分展示了最新的生成式 AI 模型在处理非英语医学问题上的巨大潜力,为其在医学教育和临床实践中的应用提供了重要的理论依据。
不过,研究人员也指出,虽然大语言模型展现出了一定的优势,但它们也存在诸多局限性。比如,模型的回答可能不准确,即使答案正确,推理过程也可能存在错误;模型的回答还具有随机性,相同问题可能得到不同答案;过度依赖大语言模型会影响学生独立思考和批判性推理能力的培养;而且在临床应用中,还存在隐私保护和数据安全等问题。
尽管如此,这项研究依然意义非凡。它为 AI 在医学教育和专业执照考试中的应用指明了方向,未来的研究可以朝着扩大问题集、提高跨语言准确性、完善评估方法等方向展开。相信随着技术的不断进步和研究的深入,大语言模型在医学领域将发挥更大的作用,为医学教育和临床实践带来更多的便利和突破,助力全球医疗事业的发展。