AI生成泌尿外科能力评估问题的前瞻性教育研究:技术验证与临床应用

【字体: 时间:2025年04月26日 来源:BMC Medical Education 2.7

编辑推荐:

  本研究针对泌尿外科教育评估中传统命题方法耗时且难以跟进医学知识更新的痛点,创新性采用ChatGPT和Gemini两种AI模型生成300道多选题,经7位资深泌尿外科专家德尔菲法验证后保留100题用于临床轮转考核。结果显示AI生成问题技术准确率达84%,临床情境类题目区分度显著优于知识回忆类(0.28 vs 0.14),学员成绩从基线45.2%提升至最终78.4%,证实AI辅助命题在专科医学教育评估中的可行性,为优化教学资源分配提供新思路。

  

泌尿外科作为融合肿瘤决策、手术技巧与慢性病管理的专科,其教育评估面临特殊挑战:既要覆盖6大亚专科(如泌尿肿瘤、腔内泌尿等),又需兼顾快速演进的技术(如机器人手术)和复杂临床决策。传统人工命题需耗费45-60分钟/题,且难以同步更新最新指南。尽管AI在普外科、妇产科等领域的命题准确率达80-85%,但针对泌尿外科这种需同时评估手术决策与长期管理的专科,AI命题的有效性尚未验证。

梅尔辛大学泌尿外科的Mert Basaranoglu团队在《BMC Medical Education》发表研究,首次系统评估AI生成问题在泌尿专科轮转考核中的应用。研究采用GPT-4和Gemini 1.5生成300道多选题,经7位10年以上资历的泌尿专家进行两轮德尔菲法验证,最终保留100题用于42名实习生的三阶段考核(基线-中期-结业)。关键技术包括:1)标准化提示模板确保问题结构统一;2)认知任务分析评估构念效度;3)重复测量ANOVA分析学习曲线;4)项目反应理论计算区分度指数。

技术准确性与质量分析
AI生成问题初始准确率84.3%(GPT-4)与83.8%(Gemini),但专家仅保留33.3%的题目。亚专科分析显示,指南标准化程度高的泌尿肿瘤题目保留率最高(38.2%),而移植泌尿仅28.9%。临床情境题区分度(0.28)显著优于知识回忆题(0.14),但仍低于传统命题(0.42)。

学习轨迹与亚专科表现
学员成绩呈阶梯式提升:基线45.2%(95%CI 42.6-47.8%)→中期62.8%(60.4-65.2%)→结业78.4%(76.5-80.3%)。泌尿肿瘤成绩最优(82.6%),与临床接触时长正相关(r=0.78)。值得注意的是,仅占5%轮转时间的移植泌尿题目成绩提升幅度最大(△28.4%),提示案例讨论可弥补实践机会不足。

成本效益与局限
AI辅助命题将单题开发时间缩短至15-20分钟(降幅65%),但需投入专家验证时间。主要局限包括:1)移植泌尿等小众领域准确率较低(80.6%);2)临床推理题目的情境复杂度不足;3)单中心设计限制结果外推性。

该研究证实AI生成问题可作为泌尿外科形成性评估工具,尤其适合知识更新迅速的亚专科(如泌尿肿瘤)。专家建议采用混合模式:AI负责生成基础题库,人工团队聚焦于:1)优化临床情境设计;2)补充小众领域内容;3)动态更新指南变化。未来需开发专科定制化AI模型,并建立多中心验证联盟,这对资源有限地区实现教育公平具有重要实践意义。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号