编辑推荐:
在医学教育评估里,高质量选择题(MCQs)意义重大,可人工出题耗时耗力。研究人员开展 “AI 与人工生成医学教育选择题对比” 研究,发现 ChatGPT-4o 生成的 MCQs 虽更易且节省时间,但存在不足。这为医学教育考试出题模式优化提供了方向。
在医学教育领域,高质量的选择题(Multiple-Choice Questions,MCQs)对于准确评估医学生知识掌握程度、保障未来临床实践安全起着至关重要的作用。然而,传统上由人类专家编写这些 MCQs 的过程却面临诸多挑战。以香港急诊医学院(Hong Kong College of Emergency Medicine,HKCEM)组织的初级急诊医学考试(Primary Examination on Emergency Medicine,PEEM)为例,每年需两次考试,每次都要新编写 100 道 MCQs,用于约 70 名考生的测试,这无疑给出题专家带来了巨大的压力,甚至可能导致职业倦怠。
与此同时,人工智能(Artificial Intelligence,AI)技术迅速发展,像 ChatGPT-4o 这样的大语言模型(Large Language Models,LLMs)为 MCQs 的生成提供了新的可能。初步研究表明,AI 能够高效生成大量 MCQs,这似乎可以大大减少传统出题方式所耗费的时间和成本。但在高风险的专业医学考试情境下,AI 生成的 MCQs 能否精准评估医学知识,仍然是一个未知数。过往研究大多聚焦于 AI 在教育场景中的效率和实用性,却较少关注其生成问题的质量和心理测量学稳健性。而且多数相关研究依赖于轶事证据或小规模评估,缺乏对 AI 真正潜力评估所必需的严格验证。例如,有些研究仅由少数评审人员对 AI 生成的题目进行评价,其结果的主观性较强;还有些针对本科阶段低风险考试的研究,难以直接推广到高风险的医学专业考试中。
为了解决这些问题,香港中文大学等机构的研究人员开展了一项前瞻性队列研究。研究人员招募了准备参加 2024 年 8 月 PEEM 考试的医生作为研究对象。参与者需要完成两组各 100 道 MCQs,一组由 ChatGPT-4o 生成,另一组则由人类专家编写。之后,6 名未参与出题的急诊医学专家组成评审小组,从事实正确性、与急诊医学的相关性、难度水平、与布鲁姆分类法(Bloom’s taxonomy,用于衡量认知水平,包括记忆、理解、应用和分析等层次)认知水平的一致性以及题目编写缺陷等五个方面,对两组 MCQs 进行严格评估。同时,研究人员还进行了心理测量分析,计算难度指数、区分指数和库德 - 理查森信度系数(Kuder Richardson Reliability,KR-20),并评估考生的表现和答题时间效率。
研究结果
- 参与者特征:研究共涉及 24 名参与者,参与率为 64.9% 。参与者平均毕业年限为 1.46 年(标准差 SD=2.00 ),其中实习医生占 37.5%,住院医生占 62.5%;性别分布上,女性占 33.3%,男性占 66.7%,年龄主要集中在 25 - 29 岁(54.2%)。
- 心理测量项目分析:AI 生成的 MCQs 难度指数显著高于人类编写的 MCQs(均值分别为 0.78 和 0.69, p<0.01 ),这表明 AI 生成的题目更简单。但在区分指数方面,两者无显著差异(AI 生成的 MCQs 均值为 0.22,人类编写的为 0.26),且均未达到高风险医学考试的理想水平(区分指数 DI≥0.30 被认为是良好的区分度),不过都处于可接受范围。在信度方面,AI 生成的 MCQs 的 KR-20 值为 0.75,人类编写的略高,为 0.83。两组题目的一致性为中等但具有统计学意义(组内相关系数 ICC=0.62 , p=0.01 ),AI 与人类编写的 MCQs 成绩之间的皮尔逊相关性也为中等且显著(皮尔逊相关系数 r=0.45 ,决定系数 R2=0.20 , p=0.03 )。
- 专家评审:专家评审发现,AI 生成的 MCQs 在事实错误(6% vs 4%)、与急诊医学的相关性(6% vs 0%)以及难度水平的适宜性(14% vs 1%)等方面,问题均多于人类编写的 MCQs。AI 生成的重复题目比例也更高(14% vs 7%),在题目编写缺陷方面,AI 生成的 MCQs 比人类编写的略多(37% vs 35%),主要体现在题干中的模糊信息和不必要内容。而人类编写的 MCQs 则存在更多的语法和拼写错误。从布鲁姆分类法认知水平分析,AI 生成的 MCQs 主要测试 “记忆” 和 “理解” 等较低层次的认知技能,人类编写的 MCQs 则更多地评估 “应用” 和 “分析” 等高层次认知技能(x2=14.27 , p=0.003 )。
- 时间花费分析:AI 生成 MCQs 所需的总时间(24.5 人时)显著少于人类编写(96 人时),尤其是在初始编写阶段,AI 仅需 2 小时,而人类花费了 71 小时。
研究结论与讨论
该研究表明,ChatGPT-4o 在生成 MCQs 方面具有显著的时间效率优势,能够快速产出大量题目,为教育机构节省了大量的时间和成本。但其生成的题目在内容质量和评估高层次认知技能方面存在不足。
虽然 AI 生成的 MCQs 区分指数与人类编写的相当,但整体区分效果仍未达到高风险医学考试的理想标准,这意味着在选拔高水平和低水平考生方面,AI 生成的题目还有提升空间。而且 AI 生成的题目在事实准确性、与考试内容的相关性以及难度适宜性等方面存在较多问题,这些问题可能会对考生的学习和评估产生负面影响。此外,AI 生成的题目主要侧重于测试较低层次的认知技能,难以全面评估考生对医学知识的综合应用和深入分析能力。
因此,在医学教育高风险考试中,完全依赖 AI 生成 MCQs 并不可行,人类专家的审核和完善至关重要。未来,可构建 AI 与人类协作的混合框架,利用 AI 的高效性进行初始题目生成,再由教育工作者进行审查、优化和验证。通过定期的反馈循环和优化提示工程,引导 AI 系统生成更符合实际应用场景、能测试高层次认知技能的题目。
同时,研究人员也指出了本研究存在的一些局限性,如样本量较小,参与者主要为初级医生,可能影响研究结果的普遍性;生成 AI MCQs 的提示未明确强调高层次认知技能,且 AI 生成的题目在模拟考试中使用,人类编写的题目用于实际考试,这些差异可能干扰研究结果。此外,AI 模型的训练截止时间以及专家评估和参与者未设盲等因素,也可能对研究产生影响。
总体而言,该研究为医学教育考试中 MCQs 的生成提供了重要参考,强调了在利用 AI 技术的同时,必须充分发挥人类专家的专业优势,以确保考试评估的质量和教育的公正性。未来研究应进一步探索如何优化 AI 与人类的协作模式,推动 AI 技术在医学教育高风险考试中的有效应用。
研究方法
研究采用前瞻性队列研究方法。研究对象为准备参加 2024 年 8 月香港急诊医学院组织的初级急诊医学考试(PEEM)的医生,通过邮件邀请符合条件的考生参与,采用便利抽样法进行招募。参与者需完成两组各 100 道 MCQs,一组由 ChatGPT-4o 基于专门设计的提示生成,另一组由 26 名人类专家按照 PEEM 考试指南编写。6 名急诊医学专家对两组 MCQs 进行评审。之后运用统计软件 R 4.4.1 进行描述性统计、心理测量项目分析(计算难度指数、区分指数和 KR-20 值)、相关性分析等。