编辑推荐:
为探究大语言模型(LLMs)对管理推理的影响,研究人员开展前瞻性随机对照试验。92 位执业医生参与,结果显示使用 GPT-4 辅助的医生得分更高但耗时更长。该研究为临床实践应用提供参考,值得关注。
在诊断推理方面,大语言模型(LLMs)展现出一定潜力,但它们在管理推理(涉及平衡治疗决策、检测策略以及管控风险)方面的影响尚不明确。为此开展了一项前瞻性随机对照试验,评估与传统资源相比,LLM 辅助能否提升医生在开放式管理推理任务中的表现。2023 年 11 月至 2024 年 4 月,92 名执业医生被随机分组,一组使用 GPT-4 和传统资源,另一组仅使用传统资源,在模拟环境中解答 5 个由专家编制的临床病例。所有病例都基于真实且已去识别化的患者诊疗情况,信息按临床实际情况依次披露。主要评估指标是两组在专家制定的评分标准下的总分差异。次要评估指标包括特定领域得分和每个病例的用时。结果显示,使用 LLM 的医生得分显著高于仅使用传统资源的医生(平均差异 = 6.5%,95% 置信区间 (CI)=2.7 至 10.2,
P<0.001)。LLM 使用者每个病例花费的时间更多(平均差异 = 119.3 秒,95% CI = 17.4 至 221.2,
P=0.02)。使用 LLM 辅助的医生和仅使用 LLM 的医生之间没有显著差异(-0.9%,95% CI = -9.0 至 7.2,
P=0.8)。这表明,与传统资源相比,LLM 辅助能够提升医生在复杂临床病例中的管理推理能力,不过这一结论还需在实际临床实践中进一步验证。临床试验注册编号:
NCT06208423。