编辑推荐:
为解决患者门户信息增多致基层医疗医生(PCPs)工作量增加、易倦怠问题,研究人员开展 “AI 在患者门户信息回复中的机遇与风险” 研究。结果显示 PCPs 难识别并纠正 AI 回复错误,虽认可其益处,但错误凸显风险,该研究为 AI 在医疗应用的改进提供方向。
在现代医疗领域,随着患者门户(patient portal)的广泛应用以及远程医疗在后疫情时代的蓬勃发展,患者与医生之间通过患者门户进行的信息交流量呈爆炸式增长。这一变化给基层医疗医生(Primary Care Physicians,PCPs)带来了沉重的负担,他们每天花费大量时间处理电子健康记录(Electronic Health Record,EHR)相关任务,其中处理患者门户信息的时间占据了相当大的比例,甚至有超过一半的工作时间都耗费在此,且每天下班后还需额外花费 1.4 小时处理相关事务。如此高强度的工作导致 PCPs 职业倦怠现象严重,在美国,约 50% 的 PCPs 报告称经历过职业倦怠,这一比例在各临床专科中名列前茅。
为了缓解 PCPs 的工作压力,研究人员将目光投向了生成式人工智能(Generative Artificial Intelligence,AI)。AI 应用利用大型语言模型(Large Language Models,LLMs)自动为医生生成回复患者信息的草稿,旨在减少医生处理信息的时间和认知负担。早期研究显示,尽管使用 AI 草稿并未显著减少处理时间,但医生们确实感受到了认知负担的减轻。然而,AI 在医疗领域的应用仍存在诸多未知,尤其是在患者门户信息回复中,LLMs 可能会引入不准确、过时或不恰当的信息,如果这些错误未被医生识别和纠正,极有可能对患者安全造成威胁。
在这样的背景下,MedStar Health 国家医疗保健人为因素中心等机构的研究人员开展了一项极具意义的研究,该研究成果发表在《npj Digital Medicine》上。研究人员旨在探究 PCPs 能否识别并纠正 AI 生成的患者门户信息回复草稿中的错误,同时评估 PCPs 对使用 AI 草稿的看法。
研究人员采用了横断面模拟研究方法。首先,从 2000 条真实的患者门户信息中筛选出 18 条包含独立医学问题的信息,这些信息不依赖额外的患者病历上下文即可回答。利用 ChatGPT 4.0 为每条信息生成 AI 回复草稿,再由两位经验丰富的 PCPs 对这些草稿进行审核,确定其中 4 条存在错误,并将错误分为客观不准确和潜在有害遗漏两类。
接着,研究人员招募了巴尔的摩 - 华盛顿大都市区的 20 名 PCPs 参与研究。这些 PCPs 在模拟的电子健康记录门户环境中,对 18 条患者门户信息及相应的 AI 草稿回复进行处理,模拟环境模仿了 Oracle Cerner 的患者消息系统,以确保参与者熟悉操作。研究人员随机安排信息的处理顺序,避免学习效应的干扰,并记录参与者对每条信息的处理时间和对 AI 草稿的修改情况。
在完成所有信息的处理后,参与者还需填写一份调查问卷,评估 AI 草稿回复的价值和安全性。问卷包括一道 “是 / 否” 题和五道 6 分制李克特量表题,分别询问参与者对 AI 草稿的帮助性、减轻认知负担、共情与同情心、准确性以及安全性的看法。
研究结果令人深思。在 20 名参与者中,15 名(75%)为女性,19 名(95%)为主治医师,参与者从医学院毕业平均已有 14.75 年的工作经验。对于 4 条存在错误的 AI 草稿回复,至少有 13 名(65%)参与者未能充分识别和纠正错误,至少 7 名(35%)参与者甚至未对错误草稿进行任何修改就提交了回复。平均而言,每位参与者遗漏了 4 条错误草稿中的 2.67 条(66.6%),仅有 1 名参与者成功识别并纠正了所有 4 条错误草稿。通过二项式检验发现,错误信息被遗漏的可能性显著大于零。
在调查问卷方面,参与者对 AI 草稿回复总体持积极态度。19 名(95%)参与者认为 AI 草稿对回复患者门户信息有帮助;16 名(80%)同意或强烈同意 AI 草稿减轻了回复信息所需的认知负担;18 名(90%)信任该 AI 工具的性能;15 名(75%)认为 AI 草稿具有共情和同情心;14 名(70%)认为 AI 草稿准确;15 名(75%)认为使用 AI 草稿是安全的。
研究人员认为,PCPs 未能充分纠正 AI 草稿中的错误可能有多种原因。一是功能固着(functional fixedness),医生可能受到认知偏差的影响,局限于 AI 草稿给出的看似合理的诊断,难以考虑其他可能性;二是确认偏差(confirmation bias),医生倾向于过度信任与自己预期相符的 AI 草稿;三是自动化自满(automation complacency),由于大多数 AI 草稿没有错误,医生对自动化系统的监测变得松懈;四是自动化偏差(automation bias),医生在工作量较大时,可能过度依赖 AI,审查时不够勤勉。
该研究的意义重大。它明确指出了 AI 在患者门户信息回复中存在的安全风险,如信息幻觉、过时信息、对病情严重性评估和沟通不当等。尽管 AI 在医疗领域的应用迅速,但目前对其安全性的了解还远远不足。研究结果提示,为了确保 AI 在医疗领域的安全有效应用,需要从设计改进、技术提升、人员培训等多方面入手,同时制定组织、州或联邦层面的使用指南,并加强对 AI 内容的人工审查,以保障患者的医疗安全。
在研究方法上,研究人员主要采用了以下关键技术:一是模拟电子健康记录门户环境,模拟真实的患者消息系统,使研究更贴近临床实际;二是利用 ChatGPT 4.0 生成 AI 回复草稿,为研究提供了具有代表性的 AI 数据;三是通过两位经验丰富的 PCPs 对 AI 草稿进行审核和评估参与者的回复,确保了研究结果的可靠性。
综上所述,这项研究为 AI 在基层医疗患者门户信息回复中的应用敲响了警钟,也为后续的研究和改进指明了方向,在推动 AI 与医疗深度融合的道路上迈出了重要一步。