《Insights into Imaging》:Generative pre-trained transformer 4o (GPT-4o) in solving text-based multiple response questions for European Diploma in Radiology (EDiR): a comparative study with radiologists
【字体:
大中小
】
时间:2025年03月23日来源:Insights into Imaging 4.1
在科技飞速发展的当下,大语言模型(LLM)如生成式预训练变换器(GPT)、Gemini、Copilot 等异军突起。它们能力不断提升,不仅知识储备丰富,还能像专家一样精准地推理和解读复杂关系。在医疗领域,这些模型也展现出了巨大的潜力,不过,它们在医学影像解读方面存在短板。欧洲放射学文凭(EDiR)考试是放射科医生和住院医师的重要考核,能检验他们的专业知识,对职业发展意义重大。但之前的研究没有用真实的考试题目评估语言模型在 EDiR 考试中的表现,这就给研究留下了空白。
为了填补这一空白,来自 Motol University Hospital、Second Faculty of Medicine、Charles University 等多个机构的研究人员展开了一项研究。该研究成果发表在《Insights into Imaging》上。研究人员将目光聚焦在 GPT-4o上,想看看它在 EDiR 考试文本问答中的表现如何,并与人类考生进行对比。
在研究方法上,研究人员采用了多种关键技术。首先是数据收集,他们邀请了 42 名参加 2023 年 EDiR 考试的考生和 26 名四年级医学生参与研究。其中,医学生需在规定时间内使用 ChatGPT-4o回答问题,而 EDiR 考生的成绩则来自实际考试。其次,他们从 2023 年 EDiR 官方考试中选取了 52 道基于文本的低阶思维多响应问题(MRQs)作为测试题目,涵盖腹部放射学、乳腺放射学等多个领域。最后,研究人员运用 Prism 和 R 软件进行统计分析,通过计算平均分、标准差、Fleiss kappa 值等指标来评估 GPT-4o和人类考生的表现差异。
答案一致性对比:GPT-4o的答案一致性近乎完美(K = 0.872),而 EDiR 考生之间的一致性仅为中等水平(K = 0.334)。
研究结论与讨论部分指出,GPT-4o在低阶、基于文本的 EDiR 多响应问题上表现卓越,展现出了较高的准确性和可靠性。这表明它在回答基于文本的放射学问题方面有很大潜力。不过,该研究也存在一些局限性。例如,研究仅使用了基于文本的低阶思维问题,未涉及图像相关内容;只评估了一种大语言模型,不能代表其他模型的能力;各专业领域的问题数量相对较少,限制了对不同领域表现差异的深入研究等。