Transformer 和大语言模型:电子健康记录研究的高效特征提取利器

《Communications Medicine》:Transformers and large language models are efficient feature extractors for electronic health record studies

【字体: 时间:2025年03月23日 来源:Communications Medicine 5.4

编辑推荐:

  研究人员评估 NLP 和 LLMs 用于电子健康记录特征提取,发现特定模型效果好,利于医学研究和患者护理。

  在数字化医疗的时代,电子健康记录(EHRs)蕴含着海量的信息,宛如一座等待挖掘的宝藏。这些记录中既有结构化数据,也包含大量的自由文本数据,像是医生对病情的详细描述、诊断依据等。然而,从这些自由文本里精准提取关键信息,却成了困扰医疗领域的一大难题。
以往,研究人员在分析 EHRs 时,常常面临两难的选择。手动提取信息,虽然精准度高,但耗时费力,成本巨大,就好比大海捞针,效率极低;而使用国际疾病分类(ICD)诊断代码,虽然操作相对简单,可它在识别感染类型等关键信息时,却显得力不从心,尤其是在面对一些不常见的感染,如脑膜炎时,常常会遗漏病例,而且其有效性也参差不齐。此外,代码往往在患者出院或治疗结束后才记录,与实际的抗生素处方可能存在时间差,导致信息不匹配。

为了攻克这些难题,来自英国牛津大学的研究人员展开了一项意义非凡的研究。他们的研究成果发表在《Communications Medicine》上,为电子健康记录的研究和应用带来了新的曙光。

研究人员采用了多种前沿技术方法来开展这项研究。首先,他们从牛津郡的医院获取了 938,150 份抗生素处方数据,这些数据分别来自牛津(三个医院站点)和班伯里(一个医院),其中牛津的数据用于训练和内部测试,班伯里的数据作为外部测试集。其次,针对自由文本的 “适应症” 字段,两位临床研究人员对 4000 个最常见的独特适应症进行标注,将其分类为 11 个感染源类别,并记录是否存在不确定性,以此作为 “ground truth” 标签。然后,研究人员运用了多种模型进行对比研究,包括传统的正则表达式(Regex)规则、n - grams & XGBoost 方法,以及基于 Transformer 架构的 BERT 分类器和大语言模型(LLMs),如零样本的 OpenAI GPT4 模型和微调后的 GPT3.5 模型。

在研究结果方面,研究人员发现:

  • 处方适应症情况:在牛津的 826,533 份处方中,记录了 86,611 个独特的自由文本适应症。“围手术期预防”“UTI”“LRTI” 等是常见的适应症。而且,数据中存在表述多样、拼写错误、感染源不确定等情况,还有一些少见但有意义的适应症。
  • 模型性能表现:在内部(份处方)和外部测试数据集(份处方)上,微调后的领域特定 Bio+Clinical BERT 模型在 11 个类别中表现最佳,平均 F1 评分分别达到 0.97 和 0.98 。它远远超过了传统的正则表达式(F1 = 0.71 和 0.74)和 n - grams/XGBoost(F1 = 0.86 和 0.84)模型。零样本的 OpenAI GPT4 模型在无需标记训练数据的情况下,性能与传统 NLP 模型相当(F1 = 0.71 和 0.86);微调后的 GPT3.5 模型性能与微调后的 BERT 模型相近(F1 为 0.95 和 0.97)。
  • 不同类别分类效果:使用表现最佳的 Bio+Clinical BERT 模型评估各类别性能,在内部测试集中,“呼吸道”“无特定来源” 和 “预防” 等类别表现出色,F1 评分达到 0.98 。“骨科” 类别表现较差,可能是由于术语种类繁多且训练样本较少。在外部测试数据中,除 “无信息价值” 类别外,其他类别 F1 评分平均比内部测试集高 0.02。
  • 误分类情况:大多数误分类在单个适应症中分布较为均匀。在内部测试集中,“骨科” 和 “其他特定” 病例的误分类较为常见;在外部测试集中,大多误分类被预测为 “其他特定” 或 “预防”。
  • 训练数据集大小的影响:研究发现,当训练样本数量从 250 增加到 1000 时,模型性能(AUC - ROC 和 F1 评分)显著提升,表明至少需要 1000 个训练样本才能获得较好的性能。而当训练数据集大小增加到 4000 时,性能提升有限。
  • 与 ICD - 10 代码的比较:与 ICD - 10 诊断代码相比,从自由文本中提取的感染源能将 31% 被分类为 “非特异性” 的感染源解析为特定来源,对于罕见感染源的体现也更好。

研究结论和讨论部分指出,现代自然语言处理(NLP)方法,如微调后的 Bio+Clinical BERT 模型,能够从半结构化的自由文本字段中高效准确地提取临床相关细节,在感染源分类任务上表现卓越。虽然零样本学习的 GPT4 模型性能与传统方法相当,但微调后的 GPT3.5 模型在正确设置和调整后,能取得与 Bio+Clinical BERT 模型相近的结果。不过,其部署可能面临格式解析等挑战。在计算资源有限的环境中,Regex 和基于 XGBoost 的模型可作为替代方案。此外,研究还存在一些局限性,如仅使用了部分训练数据和测试数据,标签过程存在一定主观性。未来可以探索更高效的 NLP 模型,如通过模型剪枝、量化和知识蒸馏等技术优化模型。

这项研究意义重大,它为医学研究和临床实践开辟了新的道路。通过精准提取电子健康记录中的信息,有助于更深入地开展流行病学研究,监测和评估不同情况下的处方实践,还能为开发预测算法提供标准化特征,从而改善患者护理。可以说,它为医学领域的发展注入了新的活力,让我们在数字化医疗的道路上迈出了坚实的一步。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
生物通微信公众号
微信
新浪微博

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号