-
生物通官微
陪你抓住生命科技
跳动的脉搏
GPT、Bard 和 Bing 聊天机器人在基础生命支持(BLS)场景中回复的正确性与可靠性评估
《Scientific Reports》:Evaluation of correctness and reliability of GPT, Bard, and Bing chatbots’ responses in basic life support scenarios
【字体: 大 中 小 】 时间:2025年04月04日 来源:Scientific Reports 3.8
编辑推荐:
在人们健康信息获取转向网络的当下,为评估 GPT-3.5、GPT-4、Bard 和 Bing 等聊天机器人在基础生命支持(BLS)场景中回复的可靠性,研究人员开展了相关研究。结果显示,各聊天机器人在儿科和婴儿场景表现不佳且未严格遵循 BLS 指南。这为 AI 在医疗领域的应用提供重要参考。
在当今数字化时代,健康信息的获取渠道发生了巨大变化,人们越来越倾向于从网络获取健康知识。基础生命支持(Basic Life Support,BLS)在紧急医疗服务到达前,对挽救生命和改善神经功能结局至关重要 。像美国心脏协会(American Heart Association,AHA)等组织一直致力于推广心肺复苏(Cardiopulmonary Resuscitation,CPR)和自动体外除颤器(Automated External Defibrillator,AED)的培训。然而近年来,随着人们健康信息搜索习惯向网络转移,由生成式人工智能(Artificial Intelligence,AI)驱动的聊天机器人逐渐兴起,有望成为提供即时健康指导的工具。但目前并不清楚像 GPT-3.5、GPT-4、Bard 和 Bing 这些通用聊天机器人在 BLS 场景中的表现如何。为了解决这一问题,来自伊朗德黑兰医科大学(Tehran University of Medical Sciences)的研究人员开展了相关研究。
研究人员采用了横断面研究的方法。他们从联合医学教育(United Medical Education,UME)的 BLS 客观结构化临床考试(Objective Structured Clinical Examination,OSCE)中选取并改编了 6 个场景,涵盖成人、儿科和婴儿的紧急情况。通过 Microsoft Edge 浏览器访问 Bing,使用 Google Chrome 浏览器访问 Bard、ChatGPT-3.5 和 ChatGPT-4,每个场景向各聊天机器人展示两次,间隔一周。由德黑兰医科大学一位精通 AHA BLS 指南的急诊医学教授,依据 UME OSCE 标准清单对聊天机器人的回复进行评估,并利用 Cohen's kappa 系数衡量可靠性。
研究结果如下:
正确性:在成人场景中,GPT-4 首次尝试时的正确回答率最高,达 85%,Bard 为 60%,其他聊天机器人正确率低于 50%;儿科场景中,Bard 第二次尝试的正确率为 52.17%,其余聊天机器人低于 44% ;婴儿场景中,所有聊天机器人的正确率均低于 27%。综合来看,Bard 的第二次回复正确回答率最高,为 42.42%,GPT-4 的首次回复次之,为 37.88%。
对 BLS 场景的识别及建议:所有聊天机器人都能正确识别 BLS 场景并提出适当的 CPR 顺序,但只有 Bing 能在婴儿场景中区分单救援者和双救援者情况,且 Bing 建议在寻求额外帮助和获取 AED 之前先进行一分钟 CPR,这与 AHA 指南不一致。此外,虽然部分聊天机器人在成人场景中考虑使用 AED,但都未建议旁观者尽可能获取 AED。
可靠性:Cohen's kappa 系数显示,GPT-4( )和 GPT-3.5( )具有较高可靠性;Bing( )可靠性中等;Bard( )可靠性一般。
研究结论和讨论部分指出,GPT-4 在成人 BLS 场景中表现最佳,但在儿科和婴儿场景中表现较弱。Bard 在成人场景有一定表现,但在儿科和婴儿场景同样表现不佳。Bing 和 GPT-3.5 在儿科和婴儿紧急场景中表现未达预期,这表明当前的生成式 AI 模型可能并不适合涉及年轻患者的危急情况。这可能是因为聊天机器人的训练数据主要基于成人场景或非临床对话,对儿科和婴儿 BLS 协议的细微要求理解有限。此外,研究还强调了 AI 系统在高风险环境(如 BLS)中的信任问题,尽管部分聊天机器人可靠性较高,但在关键场景中的失误仍让用户难以完全信任。本研究为 AI 在医疗领域的应用提供了重要参考,提示在将聊天机器人用于实际医疗场景时需谨慎,并强调了人类监督的必要性。同时,也为未来 AI 聊天机器人在医疗领域的改进和发展指明了方向,如利用更有针对性的数据集进行训练、开发专门的医疗聊天机器人架构等。
这项研究发表在《Scientific Reports》上,为后续相关研究奠定了基础,对推动 AI 在医疗急救领域的合理应用具有重要意义。
知名企业招聘
今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号