基于大语言模型的临床文本吸烟史提取及其在肺癌监测中的应用研究
《npj Digital Medicine》:Leveraging large language models to extract smoking history from clinical notes for lung cancer surveillance
【字体:
大
中
小
】
时间:2025年11月30日
来源:npj Digital Medicine 15.1
编辑推荐:
本研究针对电子健康记录(EHR)中吸烟史信息缺失或不准确的问题,开发了一种结合大语言模型(LLM)和规则化纵向平滑技术的框架,用于从临床文本中提取七项关键吸烟变量。研究显示,生成式LLM(Gemini-1.5-Flash、GPT-4)在斯坦福医疗系统和Sutter Health系统的外部验证中均达到>96%的准确率,并通过4792例肺癌患者的队列数据证明,整合吸烟因素的SPLC-RAT风险模型在二次原发性肺癌监测中优于NCCN指南。该研究为提升吸烟史文档质量及肺癌长期监测提供了高效解决方案。
吸烟是多种健康问题的重要风险因素,更是美国可预防死亡的首要原因。对于肺癌患者而言,准确的吸烟史记录不仅影响初始治疗决策,更与第二原发性肺癌(SPLC)的风险密切相关。尽管电子健康记录(EHR)系统理论上为收集吸烟信息提供了便利,但现实中医护人员往往在结构化字段中仅记录吸烟状态(如当前、既往或从未吸烟),而更详细的吸烟包年数、吸烟持续时间、戒烟年限等关键定量数据,则散落在浩如烟海的临床文本中。这些文本记录不仅格式自由、表述多样,还常存在信息稀疏、前后矛盾等问题,导致传统自然语言处理(NLP)方法难以高效、准确地提取信息。此外,单个时间点的记录无法反映患者吸烟行为的动态变化,而纵向数据中常见的“从不吸烟者”变为“既往吸烟者”等不合理跃迁,更是给数据质量和后续分析带来了巨大挑战。
为了解决上述问题,并探索如何利用高质量的纵向吸烟史数据来优化肺癌患者的长期监测策略,研究人员在《npj Digital Medicine》上发表了他们的最新研究成果。他们开发了一个结合了大语言模型(LLM)和规则化纵向平滑技术的框架,旨在从多医疗系统的临床文本中自动提取并整合高质量的纵向吸烟史数据,并评估其在第二原发性肺癌风险预测中的应用价值。
研究人员为开展此项研究,主要采用了以下几个关键技术方法:首先,他们利用来自斯坦福医疗保健(SHC)的376名肺癌患者的1183份人工标注临床笔记作为开发集,并利用Sutter Health的142名患者的500份笔记进行外部验证。其次,他们比较了生成式LLM(如Gemini-1.5-Flash, GPT-4)与BERT-based模型(如ClinicalBERT)在零样本提示(zero-shot prompting)下提取七项吸烟变量(如吸烟状态、包年、戒烟年限等)的性能。然后,他们将性能最优的LLM(Gemini-1.5-Flash)部署到SHC的4792名肺癌患者的79,408份纵向临床笔记中,进行大规模数据提取。最后,他们开发并应用了一套规则化的纵向平滑算法,利用患者所有纵向记录中的吸烟状态、包年数、戒烟日期等信息,来识别和修正吸烟状态中不合理的时序跃迁,从而生成高质量的纵向吸烟史。
用于LLM开发和评估的斯坦福医疗保健(SHC)队列包括376名肺癌患者(女性占49.7%,中位年龄65.9岁),其1183份临床笔记经过了人工标注(即图表审查)以获取吸烟史信息。该队列以白人(54.8%)和亚裔(16.8%)为主。大多数患者为腺癌(47.3%),其中43.9%为早期肺癌,38.3%为晚期疾病。
使用零样本提示,生成式LLM(Gemini 1.5 Flash, GPT-4, PALM 2 TextBison)在从临床笔记中提取吸烟状态方面优于基于BERT的模型(ClinicalBERT, blueBERT),准确率显著更高(生成式LLM为96.6%至97.5%,而基于BERT的模型为76.9%至82.5%)。基于此,研究专注于使用生成式LLM通过相同的零样本提示方法提取所有吸烟变量。在生成式模型中,Gemini 1.5 Flash和GPT-4在所有七个吸烟变量上表现出最高的总体准确率(分别为96.6%和96.1%)。在这些变量中,戒烟年龄(78.9-99.6%)表现最佳,其次是包年(86.9-98.3%)和戒烟年份(87.8-97.9%),而戒烟至今年限(92.4-95.4%)和吸烟持续时间(84.0-94.9%)的准确率略低。当使用来自Sutter Health社区医疗环境的独立数据集(500份临床笔记,142名患者)进行验证时,Gemini 1.5 Flash和GPT-4保持了相似的高总体准确率(分别为98.4%和98.9%)。值得注意的是,在验证数据中,吸烟持续时间(97.6-99.2%)和每日包数(99.2-99.6%)的准确率相比SHC的开发数据有所提高,证明了这些LLM在不同医疗系统和文档质量水平下的泛化能力。
错误分析发现,生成式LLM(Gemini)在解释近似日期、区分历史与当前吸烟行为以及处理具有多次戒烟尝试的复杂吸烟史等方面存在困难。笔记质量差,例如过于简短的文档(如仅有“社会史:烟草使用”而未说明是当前、既往或从未吸烟者)和矛盾信息(如同一条笔记中既说“既往吸烟者,2019年戒烟”又说“当前吸烟者,每日1包”),也阻碍了吸烟信息的提取。值得注意的是,LLM能很好地处理语法、拼写、标点错误和临床缩写。
为了整理全面的纵向吸烟数据,研究部署了Gemini 1.5 Flash从一个更大的SHC肺癌队列(N=4792)的79,408份临床笔记中提取吸烟信息。该队列在诊断时中位年龄为69.1岁(IQR: 61.3-75.8),以白人(58.1%)和亚裔(24.2%)为主。在该队列中,诊断时55.1%为既往吸烟者,17.4%为当前吸烟者,27.6%为从未吸烟者。整理后的纵向吸烟数据(基于79,408份临床笔记和57,407条结构化数据)显示,92.7%的患者拥有多条(≥2条)吸烟相关临床笔记或结构化吸烟数据,中位随访时间为诊断后2.9年(IQR: 0.6-6.3年)。每名患者从初次诊断起最长22.4年的时间里,中位拥有14条吸烟记录(IQR: 5-37)。
LLM提取(使用Gemini)和结构化吸烟记录的整合揭示了患者纵向吸烟史中吸烟状态随时间变化的不一致性。例如,一些患者出现了从“当前”到“既往”再到“从未”的转变,这是不可信的,不应发生。总体而言,18.0%(n=862名患者)的吸烟状态中至少有一次“不可信”的转变,14.7%(n=703名患者)有两次或更多次不可信转变。研究开发并应用了规则化平滑方法,利用每个人的纵向吸烟状态、包年数据和戒烟年限来识别最可信的吸烟状态转变。
在应用规则化平滑方法后,不可信的转变得到了纠正,为研究队列生成了准确的吸烟史。
纵向吸烟史数据在评估肺癌患者诊断后监测策略中的效用
研究评估了整理的纵向吸烟数据在监测肺癌患者初始诊断后长期结局方面的效用。认识到吸烟是发生第二原发性肺癌(SPLC)的已知风险因素,研究检查了SHC队列中在肺癌诊断后继续吸烟并随时间推移仍保持当前吸烟状态的患者比例。结果显示,在1113名在整个五年期间存活且未发生SPLC的患者中,当前吸烟率从诊断时的17.4%显著下降到地标年第5年(即初始诊断后5年)的7.7%。
基于先前研究了基于吸烟史和年龄的2013-USPSTF肺癌筛查标准与肺癌患者后续SPLC风险关联的研究,本研究重现了这种关联。在初始诊断时评估的USPSTF筛查资格与SPLC风险显著相关(风险比[HR]: 1.76; p=0.019)。然而,当使用更新的患者吸烟信息时,这种关联的强度随时间推移而减弱,这一趋势在先前的研究中由于缺乏纵向吸烟数据而未观察到;这强调了仅考虑吸烟可能无法完全捕捉在考虑反映诊断后患者吸烟行为变化的完整纵向吸烟文献数据时的SPLC风险。
当检查使用未经规则化平滑的原始提取数据的2013-USPSTF标准时,即使在诊断时——这一关联已在先前文献中确立——关联也表现出更宽的置信区间且无显著性。这种缺乏显著性的情况很可能是由于原始数据中的不一致性和噪音,掩盖了真实的关联模式。
此外,研究利用整理的纵向吸烟数据评估了肺癌患者的各种诊断后监测策略。分析显示,一个已发表的SPLC风险预测模型(称为SPLC-RAT)——它结合了吸烟史以及其他临床风险因素(如肿瘤特征、治疗、其他癌症病史)——在诊断后的不同地标时间点表现出稳健的预测性能(AUC范围:68.9-77.5%)。进一步的分析表明,基于SPLC-RAT(应用10年风险≥5.6%的阈值)识别高危个体进行SPLC监测的风险模型监测策略,其性能优于仅考虑吸烟史和年龄的USPSTF标准以及仅纳入临床因素的NCCN指南。特别是,在初始诊断时被SPLC-RAT划分为“高危”组的患者,其观察到的10年SPLC发生率为4.2%,而“低危”组为1.4%。
本研究提出了一个利用LLM从EHR临床笔记中提取纵向吸烟史数据并结合规则化平滑技术通过解决冲突和不一致性来提升数据质量的框架。研究表明,生成式LLM能够以高准确率(>96%)从临床笔记中提取全面的吸烟数据,捕获分类(吸烟状态)和定量指标(包年、持续时间、戒烟年限)。与需要大量训练数据进行端到端微调且处理临床笔记上下文窗口受限的BERT模型相比,生成式LLM仅通过提示工程就展示了改进的性能。本研究的关键优势还包括由两名独立标注者对大量临床笔记(n=1183)进行的严格人工标注过程,以及通过外部验证证明了所提出方法的强大泛化能力。
研究开发的规则化纵向平滑算法有效解决了纵向吸烟史数据中常见的不一致性(例如,约20%的患者表现出不可信的吸烟状态转变)。与原始提取数据相比,平滑后的数据显示出改进的统计效力,并揭示了原本被提取不一致性所掩盖的有意义的临床模式。这种改进使得能够评估肺癌幸存者的有效监测策略,证明结合全面吸烟史和临床因素的SPLC-RAT风险模型监测策略优于仅依赖吸烟史和年龄(USPSTF标准)或仅临床因素(NCCN指南)的现有标准。
总之,本研究展示了一种利用LLM从不同医疗环境的临床笔记中提取吸烟信息,并结合规则化平滑技术来提升部署后数据质量的新框架。这些发现表明,基于LLM的提取方法结合纵向平滑算法,能够有效解决文档不一致性并生成准确的吸烟史。这突出了将LLM集成到EHR中作为面向提供者的临床决策支持系统的潜力,以自动填充和验证吸烟信息,减轻文档负担的同时确保更一致的数据,最终改善患者护理和结局。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号