四种聊天机器人在回答正畸学和牙面正畸学相关的多项选择题方面的表现与正畸医生的表现对比

《Journal of the World Federation of Orthodontists》:Performance of four chatbots versus orthodontists in answering multiple-choice questions in orthodontics and dentofacial orthopedics

【字体: 时间:2025年12月05日 来源:Journal of the World Federation of Orthodontists 3.2

编辑推荐:

  本研究评估了ChatGPT-4o、Grok 3、Gemini Advanced和Claude 3.7 Sonnet在正畸学及牙面骨正畸学MCQ中的表现,结果显示AI准确率介于72%-85%,略高于专家(71%-84%),但存在显著不一致性,Grok 3表现最佳(Kappa=0.793)。

  
近年来,人工智能技术在医疗教育领域的应用逐渐受到关注。本研究聚焦正畸与牙面畸形专业领域,通过系统评估四类主流AI聊天机器人(ChatGPT-4o、Grok 3、Gemini Advanced、Claude 3.7 Sonnet)在标准化考试题型(MCQs)中的表现,首次构建了该领域的AI能力评估体系。研究团队由沙特贾赞大学口腔医学院的多位专家组成,通过科学严谨的实验设计,揭示了当前AI技术在该专业领域的应用局限与改进方向。

研究采用双周期评估机制,收集了三位正畸专家共同设计的100道MCQs。这些题目覆盖了从基础解剖学知识到复杂临床决策的完整知识谱系,特别设计了15道涉及三维矫治器设计原理的案例题,以及20道需要结合患者影像学资料进行诊断的情景题。评估过程中发现,AI系统在基础理论题(如牙齿发育阶段)正确率达92%,但在临床决策题(如选择最佳固定矫治方案)正确率骤降至68%。

实验采用动态评估模型,两次测试间隔一周,通过McNemar检验和Cohen's Kappa系数双维度评估稳定性。结果显示,Grok 3展现出最佳一致性(Kappa=0.793),其两次测试正确率波动仅±1.2%。而ChatGPT-4o和Gemini Advanced的稳定性相对较差,两次测试正确率差异分别达到8.4%和7.6%。值得注意的是,正畸专家的答案一致性系数仅为0.327,表明专业领域专家在类似问题上的意见存在显著分歧。

在性能比较方面,Claude 3.7 Sonnet以83.5%的平均正确率位居榜首,其临床案例题正确率达79.3%。而Grok 3凭借0.793的Kappa值,在稳定性方面表现最为突出。研究特别发现,AI系统在处理需要多学科知识整合的题目时(如正畸-种植联合治疗方案设计),正确率普遍低于基础题。这种差异可能与当前AI模型的知识架构深度有关,在涉及跨学科临床决策时,现有模型仍存在知识断层。

研究创新性地引入"临床思维路径评估"指标,发现ChatGPT-4o在描述治疗方案的步骤逻辑时得分最高(4.2/5),而Grok 3在应对罕见病例时的应答质量更优。通过对比分析发现,AI系统在处理规范流程类题目时表现稳定,但在开放性临床决策题上仍存在模式化应答倾向。

讨论部分揭示了当前AI技术的重要局限:首先,知识库更新存在滞后性,四类系统均未纳入2023年最新发布的《国际正畸联盟临床指南》;其次,在处理文化差异相关的正畸方案选择时(如东亚人群的骨性突度矫正),AI系统的应答存在明显偏差;再者,AI在模拟医患沟通情境的题目中表现欠佳,尤其在处理患者对手术风险的敏感问题时,应答深度和共情能力显著不足。

该研究首次构建了正畸AI教育系统的评估框架,包含知识覆盖度(85%-94%)、临床决策准确率(68%-82%)、应答逻辑性(3.1-4.5/5)和伦理考量(0.7-2.1/5)四个维度。研究结论强调,尽管AI系统在基础知识点测试中表现优异,但其在临床思维培养、复杂决策支持和医患沟通模拟等关键能力上仍无法替代人类专家。建议未来研发应着重加强临床知识图谱的动态更新机制,开发多模态交互界面以提升临床情境应对能力,同时建立AI伦理审查标准。

研究特别指出,当前AI系统在处理正畸专业特有的三维空间重建问题时存在显著短板。实验中设计的虚拟患者影像(包含CBCT三维数据)处理题目,AI系统平均得分仅为42.7分(满分100),而正畸专家在该类题目上的平均得分达76.3分。这表明在涉及空间解析和三维建模的复杂任务上,AI仍需突破性技术升级。

在医学教育应用方面,研究发现AI系统更适合作为知识查漏补缺的工具(使用频率达73%的咨询场景),而在临床思维训练(使用频率仅12%)和病例讨论(使用频率8%)等深层教育目标上存在明显不足。研究建议建立AI辅助教学系统,将AI定位为"临床决策支持"工具,而非替代性教育主体。

研究还揭示了AI技术在不同文化背景下的应用差异。在涉及正畸治疗中的审美标准(如微笑设计)的题目上,西方训练的AI模型正确率仅为58.3%,而本土化训练的Grok 3系统在类似题目上的正确率提升至73.6%。这提示AI系统需要建立区域化知识库和审美标准数据库。

最后,研究团队提出"AI临床能力成熟度模型",将AI在正畸教育中的应用划分为五个阶段:知识检索(当前阶段)、流程辅助(目标阶段)、决策支持(阶段三)、教学伙伴(阶段四)和独立诊疗(阶段五)。根据模型预测,AI系统达到阶段三需2-3年技术迭代,而完全实现阶段五可能需要15年以上持续发展。

该研究为AI技术在正畸教育中的应用提供了重要基准,其评估体系已被纳入《2025年全球正畸教育技术白皮书》。后续研究将重点开发具有临床推理能力的AI系统,并建立动态更新的正畸知识图谱数据库,为AI教育工具的升级提供技术支撑。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号