编辑推荐:
在急诊医学中,有效患者出院信息(PDI)至关重要,但传统创建方式耗时耗力。研究人员开展了评估人工智能(AI)生成急诊患者出院信息的研究,发现 GPT-4 生成的手册总体评分不错,但存在问题。这为 AI 在医疗领域应用提供了参考。
在繁忙的急诊室里,患者匆匆而来又匆匆离去,可出院时能否清楚知晓自己的病情、后续该如何护理、何时需要复诊,这些问题至关重要。有效的患者出院信息(Patient Discharge Information,PDI)就像一把健康的 “钥匙”,能帮助患者更好地管理自身健康,提高满意度,减少不良健康事件的发生。然而,现实却有些残酷。一方面,患者来自不同背景,语言能力、对医疗知识的熟悉程度、受教育水平和文化都各不相同,再加上急诊室嘈杂的环境、医护人员繁重的工作量,导致患者很难完全理解医生提供的信息。据统计,患者在咨询后五分钟内就会忘记大约一半医生告知的信息,甚至有人表示根本没有得到任何解释。另一方面,创建书面出院材料既耗费时间又成本高昂。在这样的困境下,人工智能(Artificial Intelligence,AI)的出现,尤其是大语言模型(Large Language Models,LLMs),为解决这一问题带来了新的希望。于是,来自比利时等机构的研究人员开展了一项极具意义的研究,该研究成果发表在《International Journal of Emergency Medicine》上。
为了探究 AI 生成的 PDI 的效果,研究人员进行了一系列操作。他们选择了急诊中常见的三种患者主诉场景:非特异性腹痛(Nonspecific Abdominal Pain,NSAP)、非特异性腰痛(Nonspecific Low Back Pain,NSLBP)和小儿(非婴儿)发热。利用 OpenAI 开发的 GPT-4(2023 年 5 月 24 日版本),通过在 ChatGPT 界面输入特定查询生成英文 PDI 手册,再借助 DeepL 软件翻译成荷兰语。之后,邀请 8 位经验丰富的急诊医生,依据质量、可及性、清晰度、医学信息正确性和可用性这五个关键绩效指标(Key Performance Indicators,KPIs),采用 1 - 10 分的评分标准对手册进行评估。同时,运用 Flesch 阅读易度(Flesch Reading Ease,FRE)、Flesch - Kincaid 年级水平(Flesch-Kincaid Grade Level,FKGL)等多种可读性指标对翻译后的文本进行量化分析。
研究结果显示,在参与调查的 10 位合格急诊医生中,有 8 位(80.0%)参与了此次评估。从 KPIs 评分来看,三种手册在各方面表现不一。NSAP 手册在正确性上得分最高(7.8±1.04) ,质量得分(7.5±1.41)也较高,但清晰度得分最低(7.1±1.73);NSLBP 手册在可及性(7.9±0.99)、清晰度(7.8±1.16)和可用性(7.8±0.89)方面表现出色;小儿发热手册在正确性(7.0±1.20)和质量(7.1±1.36)上得分较低,不过在清晰度(7.4±1.69)和可用性(7.4±1.30)上相对较好,且在可及性上获得了该手册的最高评分(7.6±0.92)。
在可读性方面,FRE 评分表明所有手册理解起来都有一定难度,NSAP 和 NSLBP 手册属于 “非常困难” 类别(得分分别为 36.8 和 36.1),小儿发热手册稍好,属于 “相当困难”(53.9 分)。FKGL、Simple Measure of Gobbledygook(SMOG)和 Coleman-Liau Index(CLI)等指标也显示,这些手册需要高中到大学水平的理解能力。不过,由于荷兰语语言特点和文本上下文等因素,这些评分可能存在一定偏差。
综合来看,此次研究意义重大。它表明 LLMs,如 ChatGPT 使用的 GPT-4,在生成 PDI 方面有一定潜力,能达到一定的 KPI 水平,为提高创建患者教育材料的效率提供了可能,这在分秒必争的急诊医学领域尤为重要。但同时也暴露出一些问题,如 AI 生成的内容可能存在潜在危险的不准确信息或与既定医学指南不符的情况。这就意味着,在实际应用前,医疗专业人员必须对 AI 生成的内容进行仔细审查和修改,LLMs 无法完全取代医疗专业人员的专业判断和细致考量。未来,随着技术的不断进步,有望通过改进模型训练、加强监督或优化提示工程等方式,让 LLMs 更好地服务于医疗领域,为患者提供更精准、更个性化的出院信息。
研究采用的主要关键技术方法包括:利用大语言模型 GPT-4 通过 ChatGPT 界面生成英文患者出院信息手册,再借助 DeepL 软件进行翻译;邀请 8 位具有丰富急诊医学经验(至少 7 年)的医生组成评估小组,依据自定义的五个关键绩效指标进行评分;运用 FRE、FKGL、SMOG、CLI 等多种可读性指标对文本进行量化分析。