自然语言处理助力电子健康记录挖掘:认知能力下降早期检测的新突破

【字体: 时间:2025年03月02日 来源:npj Digital Medicine 12.4

编辑推荐:

  为解决认知障碍早期检测难题,研究人员开展 NLP 用于 EHR 检测认知下降研究,发现 NLP 有潜力但存挑战。

  随着全球人口老龄化加剧,认知障碍和痴呆问题日益严峻。据统计,全球约有 5500 万人患有痴呆症,预计到 2050 年这一数字将飙升至 13900 万,而阿尔茨海默病(AD)是主要病因 。同时,轻度认知障碍(MCI)影响着 15%-20% 的 65 岁以上人群。这些疾病不仅给患者带来身心痛苦,还产生了巨大的经济和社会成本,每年花费超 1 万亿美元。
早期检测对于认知障碍患者至关重要,它是及时诊断、治疗、提供支持和规划的基础,能改善患者和护理人员的预后。即便目前没有能改变疾病进程的药物,早期干预也可通过调整风险因素、进行认知训练和协调护理等方式,减缓认知能力下降,提高患者生活质量。然而,认知障碍的早期症状十分隐匿,在短暂的临床诊疗中极易被忽视,常规认知筛查也难以察觉。因此,40%-60% 的痴呆病例无法及时发现,导致诊断延迟数年之久。

电子健康记录(EHR)的广泛应用为认知障碍早期检测带来了新契机。临床笔记中的非结构化叙述包含了结构化字段所没有的关键细节和细微差别,可能隐藏着认知问题的线索。但从海量的 EHR 中筛选这些信息耗时费力,而自然语言处理(NLP)技术的出现则为解决这一难题提供了可能。NLP 是人工智能的一个分支,能运用计算方法理解非结构化文本,自动从临床笔记中识别、提取和分类相关信息。

在此背景下,来自新加坡国立大学卫生系统亚历山大医院、新加坡国立大学杨潞龄医学院等机构的研究人员开展了一项系统性回顾研究,旨在综合分析使用 NLP 方法对 EHR 临床笔记进行分析,以检测老年人认知障碍和痴呆的相关研究。该研究成果发表在《npj Digital Medicine》上。

研究人员在开展此项研究时,主要运用了以下关键技术方法:

  1. 文献检索:全面搜索了 PubMed、Embase、Web of Science 等 8 个电子数据库,涵盖从数据库建立至 2024 年 9 月的文献,同时检索了灰色文献并咨询专家,以获取尽可能全面的研究资料。
  2. 研究筛选:依据预先设定的纳入和排除标准,对检索到的文献进行筛选。纳入标准包括研究对象为≥60 岁有认知障碍风险或已确诊的成年人,干预措施为使用 NLP 方法处理非结构化 EHR 临床笔记等;排除未在笔记上使用 NLP、缺乏参考标准或无年龄分层结果的研究。经过层层筛选,最终确定了 18 项符合要求的研究 。
  3. 数据提取与评估:设计了专门的提取表格,对研究的多方面信息进行提取,如研究特征、人口特征、EHR 数据、NLP 方法、性能指标等。同时,使用 QUADAS-2 工具对研究的偏倚风险和适用性进行评估。

研究结果如下:

  1. 研究特征:这 18 项研究发表于 2020 - 2024 年,主要在美国(14 项,78%)、英国(3 项,17%)和加拿大(1 项,6%)开展。多数研究采用回顾性队列设计(14 项,78%),在学术健康系统(9 项,50%)、综合医疗服务网络(3 项,17%)和痴呆 / 心理健康服务机构(4 项,22%)进行。样本量从 199 到 535814 不等,中位数为 11106 。
  2. NLP 方法:12 项研究(67%)使用基于规则的 NLP,5 项(28%)使用机器学习,3 项(17%)使用深度学习。基于规则的系统通常结合关键词搜索、正则表达式和临床术语来提取相关症状;机器学习模型在专家标注的笔记上进行训练以分类认知状态;深度学习则利用在大型语料库上预训练的神经网络,并针对特定任务进行微调。常见的 NLP 任务包括命名实体识别、概念提取和文档分类等,且 NLP 结果常与结构化 EHR 数据(如诊断代码、药物、实验室检查结果)结合使用 。
  3. NLP 性能:总体而言,NLP 模型在识别各种认知能力下降表型方面表现出色。检测认知障碍时,敏感性范围为 0.65 - 0.95(中位数 0.88,四分位距 0.74 - 0.91),特异性范围为 0.66 - 1.00(中位数 0.96,四分位距 0.81 - 0.99)。6 项研究报告的受试者工作特征曲线下面积(AUC)值在 0.67 - 0.98 之间(中位数 0.86) 。不同认知表型和临床环境下,NLP 系统的性能存在差异。对于已确诊的痴呆诊断,NLP 系统准确率较高(中位数敏感性 0.91,特异性 0.97);而检测轻度认知障碍和早期疾病时,性能相对较弱(中位数敏感性 0.76,特异性 0.89) 。不同 NLP 方法各有优劣。基于规则的系统精度高、可解释性强,但需要大量专家投入,泛化性有限;机器学习方法适应性强,但严重依赖训练数据质量;深度学习模型性能卓越,但计算需求大、透明度低 。
  4. 医疗环境影响:医疗环境对 NLP 性能有显著影响。基层医疗研究通常敏感性较低,但特异性较高,这表明其在筛查方面有一定作用,但在检测基层医疗文档中细微的认知变化存在挑战。专科诊所和研究队列的数据往往更详细,有正式的诊断评估,NLP 表现较好。大型综合健康系统和国家数据库能够进行大规模人群分析,但常依赖诊断代码作为参考标准,存在一定局限性。综合来看,将 NLP 结果与结构化 EHR 数据整合,比单独使用任何一种数据源都能提高性能 。
  5. 特征分析与评估方法:不同研究的性能评估方法差异较大。多数研究报告了标准指标,但很少进行全面的误差分析或评估模型在不同亚组中的性能稳定性。使用交叉验证的研究结果通常比简单的训练 - 测试分割更可靠,而外部验证较少,且暴露出模型泛化性的重要问题。研究中提取的症状特征的粒度和特异性差异很大,且很少有研究系统评估单个特征或特征组合对认知能力下降早期诊断的预测能力,对症状特征的时间动态变化探索也较少 。

研究结论与讨论部分指出,此项系统性回顾全面综合了 NLP 应用于 EHR 笔记检测老年人认知障碍的研究进展。研究表明,NLP 有潜力从非结构化临床文本中识别诊断相关信息,不同 NLP 技术在检测认知障碍方面表现出有前景的性能指标,深度学习方法尤其突出。然而,研究也存在诸多局限性,如报告指标的异质性、依赖不完善的参考标准、研究的回顾性和单中心性质、对潜在混杂因素调整不足、数据捕获不完整以及潜在的算法偏见等。此外,NLP 工具在现实世界中的实施和影响研究稀缺,未来需要开展更多工作评估其在临床工作流程中的可行性、可接受性和有效性。

尽管存在挑战,但 NLP 在认知障碍早期检测领域仍具有巨大潜力。未来研究应致力于开发多模态平台整合多样数据源,拓展应用范围至预后预测和试验招募,优化专家标注语料库,探索先进的特征工程和时间建模技术,建立标准化报告指南和共享基准数据集。同时,还需关注数据质量、互操作性、用户接受度以及对患者结局和护理过程的影响等问题,通过多学科协作解决 NLP 在医疗领域应用的复杂社会技术障碍,确保 NLP 创新以公平和以患者为中心的方式设计和部署,从而推动认知障碍早期检测和护理的发展,为改善全球脑健康做出贡献。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
生物通微信公众号
微信
新浪微博

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号