编辑推荐:
为解决电子健康记录(EHRs)中自由文本的社会健康决定因素(SDoH)数据难以大规模可靠提取的问题,研究人员开展了使用开源大语言模型(LLMs)提取 SDoH 数据的研究。结果显示 LLMs 性能优于传统模式匹配方法,该研究对临床研究和医疗有重要意义。
在医疗领域,电子健康记录(Electronic Health Records,EHRs)就像是一座蕴含海量宝藏的矿山,其中记录着患者症状、家族病史、社会史等丰富信息。然而,这些信息大多以自由文本的形式存在,如同散落在矿山中的珍贵矿石,难以被轻易开采和利用。传统的提取方法,要么像基于规则的自然语言处理(Natural Language Processing,NLP)技术,缺乏通用性,换个数据集或场景就 “失灵”;要么像基于机器学习的 NLP 模型,依赖大量人工标注数据进行训练,不仅成本高昂,在临床环境中还面临数据标注专业性强、保密性要求高等难题,使得这些自由文本信息在以往的研究中常常被束之高阁。
社会健康决定因素(Social Determinants of Health,SDoH)对个人和群体的健康状况有着深远影响,在评估和解决健康差距、开展临床干预与研究等方面至关重要。但遗憾的是,结构化的 EHRs 中往往缺少 SDoH 信息的明确记录,而它们却大量隐藏在自由文本笔记里。为了攻克这一难题,来自美国哈佛医学院布莱根妇女医院(Brigham and Women’s Hospital, Harvard Medical School)、梅奥诊所(Mayo Clinic)以及哈佛大学陈曾熙公共卫生学院(Harvard T.H. Chan School of Public Health)等机构的研究人员展开了一项意义重大的研究。他们旨在评估未经微调的开源 LLMs 能否准确地从自由文本临床笔记中提取 SDoH 数据,并与传统的基本模式匹配方法一较高下。该研究成果发表在《BMC Medical Research Methodology》上,为医疗领域信息提取带来了新的曙光。
研究人员使用了马萨诸塞州综合医院(Mass General Brigham,MGB)系统的 EHR 数据,这些数据涵盖了 2007 - 2020 年期间 120 万人的电子健康记录以及与之关联的医保索赔数据。研究聚焦于患者社会历史文档中的自由文本,通过正则表达式匹配获取相关内容,并仅选取每位患者最新的社会文档进行分析。
在研究过程中,研究人员首先从 200 名患者的社会文档中手动筛选出 9 个出现频率超过 5% 的 SDoH 方面,包括婚姻状况、子女数量、就业状况等,并将其转化为问答形式,设计相应问题和候选选项作为 LLMs 的输入。为确保标注的准确性,由两名人类评审员(B.G 和 V.S)依据标注标准文档对 200 名患者的 9 个 SDoH 方面进行手动标注,标注者之间的一致性高达 93%,对于不一致的情况,经过详细讨论达成共识,并完善了标注标准。
接着,研究人员选择了 8 个在 Hugging Face 的 LLM 排行榜上表现出色的开源 LLMs 进行实验。同时,设计了一个基于模式匹配的规则基线模型,该模型依据验证集中实际患者社会文档中常用的短语设计匹配模式,用于从患者社会文档中提取 SDoH 问题的答案。
为了优化 LLMs 的性能,研究人员构建了默认和优化两条处理流程(pipeline)。默认流程使用默认提示(prompt)提取 SDoH,而优化流程则针对验证集中多数 LLMs 难以处理的 3 个 SDoH 问题,通过迭代手动评估错误响应,设计了工程提示(engineered prompt)。此外,研究人员还使用了 AWQ 量化技术(Activation-aware weight quantization)对模型权重进行量化,以减小模型尺寸,提高在资源受限环境中的推理速度。
研究人员使用准确率(Accuracy)和宏 F1 分数(macro F1 score)等指标来评估模型性能。准确率包括总体准确率(Accuracyoverall)、提及准确率(Accuracymentioned)和未提及准确率(Accuracynon - mentioned),分别反映模型在所有提取任务、文本提及特定 SDoH 时以及文本未提及特定 SDoH 时的提取准确性。宏 F1 分数则综合考虑了精确率和召回率,用于评估模型在多分类问题中的整体性能。
研究结果令人振奋。在准确率方面,基线模型的平均 Accuracyoverall为 77.33%,主要得益于其较高的 Accuracynon - mentioned。在所有 LLMs 中,openchat_3.5 表现最为突出,其平均 Accuracyoverall显著优于基线模型,在 9 个 SDoH 问题上均超越基线。在 Accuracymentioned指标上,多数 LLMs 高于基线模型,openchat_3.5 比基线模型高出 40% 以上,展现出强大的文本信息提取能力。然而,Llama - 2 - 13b - chat 的 Accuracymentioned却明显低于基线。在 Accuracynon - mentioned方面,基线模型达到 96.66%,openchat_3.5 在减少幻觉(hallucination)方面表现最佳,而两个 Llama - 2 模型表现较差。
在宏 F1 分数上,基线模型默认流程的平均宏 F1 分数为 0.53,优化流程为 0.54。openchat_3.5 是唯一明显优于基线的 LLM,部分模型如两个 Vicuna 模型和 WizardLM 模型与基线性能相当,zephyr 模型和两个 Llama - 2 模型则表现较差。
优化流程在减少 LLMs 幻觉方面效果显著,但在一定程度上降低了对文本中 SDoH 特征的敏感性。研究还发现,在 9 个 SDoH 问题中,Q2(患者有几个孩子?)和 Q7(患者的就业状况如何?)这两个问题,多数 LLMs(除两个 Llama - 2 模型外)在默认和优化流程下的 Accuracyoverall均优于基线,主要原因是基线模型在这两个问题上的 Accuracymentioned较低。同时,基线模型在 Q3(患者目前是否吸烟?)和 Q5(患者目前是否使用非法药物?)等问题上的 Accuracymentioned也很差,这是由于非结构化社会历史文档中这些问题的答案表达方式多样,简单的基于规则的方法难以捕捉。
研究结论表明,开源 LLMs 无需额外微调,就能高效准确地从非结构化 EHRs 中提取患者的 SDoH 数据,在多数 SDoH 问题上超越了传统的模式匹配方法。提示工程能够有效降低 LLMs 的无效响应率,量化模型在该任务上表现稳健,这对于资源受限的环境具有重要意义。
该研究成果为医疗领域带来了诸多积极影响。在临床研究方面,结构化的 SDoH 数据有助于更精准地选择研究队列,在流行病学研究中更好地调整混杂因素,提高临床试验中招募社会经济弱势群体患者的效率。在预测分析领域,结合结构化的 SDoH 信息和临床信息,能够提升对各种健康结局的风险预测能力,尤其在慢性病管理中,能更全面地考虑社会和环境因素对疾病的影响。此外,结构化的 SDoH 数据还有助于医疗机构识别和解决健康方面的社会差异,推动人口健康管理的发展。
总的来说,这项研究不仅为解决 EHRs 中自由文本信息提取的难题提供了新的思路和方法,也为未来医疗领域的研究和实践开辟了新的方向,有望推动医疗行业朝着更加精准、高效的方向发展。