编辑推荐:
在临床信息提取中,大语言模型(LLMs)的检索增强生成(RAG)存在依赖嵌入导致检索效率低等问题。研究人员开展了临床实体增强检索(CLEAR)的研究,结果显示 CLEAR 性能更优,能大幅减少令牌使用和推理时间,为临床信息处理带来新变革。
在医疗领域,电子健康记录(EHRs)中的自由文本笔记蕴含着丰富信息,如症状、诊断、疾病进程、社会健康决定因素、家族病史和患者观点等。这些信息对于队列选择、表型分析、观察数据分析和预测建模等研究及质量改进工作至关重要。然而,从临床笔记中提取信息却困难重重。
传统的临床信息提取方法,如基于规则和词典的方法,虽然可解释性强、易于部署,但存在诸多局限性。结构化字段(如诊断代码)无法全面捕捉患者的病史,且硬编码规则和单词列表难以涵盖临床语言的多样性,容易遗漏细微描述。监督机器学习方法虽能识别更复杂的语言关系,但需要大量有标签的训练数据,获取成本高。
近年来,大语言模型(LLMs)在信息提取和自然语言理解任务中表现出色,具有 “少样本” 和 “零样本” 提示能力。但在处理临床信息时,LLMs 也面临挑战,如患者笔记长度可能超出其上下文窗口,输入长文本会降低推理性能,且检索相关信息时易包含无关内容,增加推理成本。
为解决这些问题,来自斯坦福大学(Stanford University)的研究人员开展了临床实体增强检索(CLinical Entity Augmented Retrieval,CLEAR)的研究。该研究成果发表在《npj Digital Medicine》上。
研究人员主要采用了以下关键技术方法:
- 数据来源:使用来自斯坦福医院的两个 EHR 衍生数据集,即斯坦福阿片类药物使用障碍药物治疗(Stanford Medication for Opioid Use Disorder,MOUD)队列和 CheXpert 数据集。
- 信息提取:运用多种大语言模型,如 Med42–70b、Mixtral-8x7B-Instruct-v0.1、Llama-3–70b、Flan-T5-XXL、Flan-UL2 和 GPT-4,对 18 个临床变量进行信息提取。
- 实体识别:利用零样本命名实体识别(NER)模型 Flan-T5-XXL 识别临床实体,通过本体和 LLM 增强来补充遗漏实体。
- 对比实验:将 CLEAR 与基于笔记块嵌入的 RAG 方法和全笔记检索方法进行对比。
下面介绍研究结果:
- 评估标注可靠性:在 Stanford MOUD 数据集和 CheXpert 数据集上,标注者之间的一致性良好,未加权 Cohen's Kappa 值分别为 0.86(95% CI:0.79 - 0.93)和 0.93(95% CI:0.88 - 0.98)。
- NER 和实体选择评估:零样本 NER 在 NCBI 疾病数据集和 Stanford MOUD 数据集上表现良好,通过本体和 LLM 增强,可大幅提高实体识别的敏感性。去除 NER 步骤会损害下游信息提取任务的性能。
- 信息提取评估:在 Stanford MOUD 数据集和 CheXpert 数据集上,CLEAR 的平均 F1 分数分别为 0.90 和 0.96。使用 CLEAR 标注数据集微调 Bio + Clinical BERT 模型,其性能与大型模型相当。
- 与其他方法对比:与块嵌入和全笔记方法相比,CLEAR 在信息提取任务上表现更优,平均 F1 分数更高,推理时间更短,模型查询次数更少,输入令牌数也显著减少。
研究结论和讨论部分指出,CLEAR 在从临床笔记中提取 13 个变量时,优于块嵌入和全笔记方法,平均 F1 分数提高 3%,输入令牌数减少 71%,推理时间加快 72%,模型查询次数减少 66%。此外,CLEAR 输出可用于微调 BERT 大小的模型,性能与大型模型相当。
CLEAR 表现更优的原因主要有两点:一是 CLEAR 检索的上下文片段更短,避免了长上下文对 LLM 性能的负面影响;二是嵌入模型对笔记块的排序方式与 CLEAR 不同,CLEAR 能更有效地优先检索最相关的内容。
不过,该研究也存在一定局限性。例如,仅在临床变量提取任务上进行了评估,未涉及其他任务;在与块嵌入的比较中,块大小的调整可能还需要进一步探索;实验中 LLM 每次仅处理一个笔记块,未考虑从多个笔记类型中提取信息的情况;CLEAR 步骤的提示调整还需进一步优化;数据存在时间变化,可能影响评估结果;分析未纳入模型量化方法。
尽管如此,该研究仍具有重要意义。它引入了一种更高效的 RAG 管道,在临床信息提取中大幅减少了令牌使用和处理时间,同时提高了性能,为 LLMs 在医疗保健领域的应用提供了更经济、实用的方案,有望改变临床信息处理的格局。