编辑推荐:
研究人员对比 GPT-4o与放射科医生解答 EDiR 文本多答问题,发现 GPT-4o表现更优。
在科技飞速发展的当下,大语言模型(LLM)如生成式预训练变换器(GPT)、Gemini、Copilot 等异军突起。它们能力不断提升,不仅知识储备丰富,还能像专家一样精准地推理和解读复杂关系。在医疗领域,这些模型也展现出了巨大的潜力,不过,它们在医学影像解读方面存在短板。欧洲放射学文凭(EDiR)考试是放射科医生和住院医师的重要考核,能检验他们的专业知识,对职业发展意义重大。但之前的研究没有用真实的考试题目评估语言模型在 EDiR 考试中的表现,这就给研究留下了空白。
为了填补这一空白,来自 Motol University Hospital、Second Faculty of Medicine、Charles University 等多个机构的研究人员展开了一项研究。该研究成果发表在《Insights into Imaging》上。研究人员将目光聚焦在 GPT-4o上,想看看它在 EDiR 考试文本问答中的表现如何,并与人类考生进行对比。
在研究方法上,研究人员采用了多种关键技术。首先是数据收集,他们邀请了 42 名参加 2023 年 EDiR 考试的考生和 26 名四年级医学生参与研究。其中,医学生需在规定时间内使用 ChatGPT-4o回答问题,而 EDiR 考生的成绩则来自实际考试。其次,他们从 2023 年 EDiR 官方考试中选取了 52 道基于文本的低阶思维多响应问题(MRQs)作为测试题目,涵盖腹部放射学、乳腺放射学等多个领域。最后,研究人员运用 Prism 和 R 软件进行统计分析,通过计算平均分、标准差、Fleiss kappa 值等指标来评估 GPT-4o和人类考生的表现差异。
研究结果显示:
- 整体成绩对比:GPT-4o的平均得分达到 82.1 ± 3.0%,而 EDiR 考生的平均得分仅为 49.4 ± 10.5%,GPT-4o的成绩显著优于人类考生(p<0.0001)。
- 各专业领域表现:在除信息学外的所有放射学子专业中,GPT-4o的准确率都更高。例如,在乳腺放射学领域,EDiR 考生的平均成绩为 55.7 ± 20.3,而 GPT-4o达到了 97.7 ± 5.4;在心血管放射学领域,EDiR 考生平均成绩为 49.3 ± 21.3,GPT-4o则为 90.4 ± 12.4(均 p<0.0001)。
- 答题准确性分析:GPT-4o的真阳性(TP)率更高,假阳性(FP)率更低。EDiR 考生平均每道题选择 2.11 ± 0.05 个答案,而使用 ChatGPT-4o的学生平均选择 2.66 ± 0.01 个答案(p = 0.0001)。
- 答案一致性对比:GPT-4o的答案一致性近乎完美(K = 0.872),而 EDiR 考生之间的一致性仅为中等水平(K = 0.334)。
研究结论与讨论部分指出,GPT-4o在低阶、基于文本的 EDiR 多响应问题上表现卓越,展现出了较高的准确性和可靠性。这表明它在回答基于文本的放射学问题方面有很大潜力。不过,该研究也存在一些局限性。例如,研究仅使用了基于文本的低阶思维问题,未涉及图像相关内容;只评估了一种大语言模型,不能代表其他模型的能力;各专业领域的问题数量相对较少,限制了对不同领域表现差异的深入研究等。
尽管如此,这项研究仍然意义重大。它让人们看到了人工智能在医学教育和考试领域的潜力,为后续研究指明了方向。未来,研究人员可以进一步探索 GPT-4o在不同问题格式和考生群体中的表现,同时也应关注大语言模型在临床实践中的应用,推动人工智能与医学的深度融合,提升医疗服务的质量和效率。