基于大语言模型的吞咽障碍患者非结构化电子健康记录分析与聚类研究

《IEEE Journal of Translational Engineering in Health and Medicine》:Unstructured Electronic Health Records of Dysphagic Patients Analyzed by Large Language Models

【字体: 时间:2025年12月01日 来源:IEEE Journal of Translational Engineering in Health and Medicine 4.4

编辑推荐:

  本研究针对吞咽障碍(Dysphagia)电子健康记录(EHR)非结构化、术语复杂导致分析困难的问题,利用自然语言处理(NLP)和大语言模型(LLM)对486例患者临床文本进行智能解析与特征提取。研究结果表明,传统NLP技术因数据高变异性而效果有限,而闭源LLM(如GPT-3.5)能有效识别吞咽障碍病因类别(如神经源性、神经退行性、癌症),实现患者聚类分析(IoU>50%),为吞咽障碍的精准分型及个体化治疗策略提供新思路。

  
吞咽障碍是临床常见的复杂症状,涉及食物或液体从口腔到胃的运输困难,常伴随多种疾病(如神经系统疾病、癌症等)出现。由于吞咽障碍的病因多样且临床表现复杂,其电子健康记录(EHR)往往以非结构化自由文本形式存在,术语不统一、缩写多样,给系统化数据分析和患者分型带来巨大挑战。传统方法难以从海量异构文本中提取有效信息,限制了临床对吞咽障碍病因机制的深入理解和个性化治疗策略的制定。
为解决这一问题,来自德国弗里德里希-亚历山大大学、美国东卡罗来纳大学等机构的研究团队在《IEEE Journal of Translational Engineering in Health and Medicine》发表论文,探索利用自然语言处理(NLP)和大语言模型(LLM)对吞咽障碍患者的EHR进行智能分析。研究旨在通过先进的语言模型技术,从非结构化临床文本中自动提取诊断信息,并实现对吞咽障碍患者的病因聚类,为临床分型和治疗提供数据支持。
研究团队采用了几项关键技术方法:首先,对486例来自美国Our Lady of the Lake医院的吞咽障碍患者EHR进行预处理,包括去除特殊字符、停用词(使用NLTK工具包)和文本标准化;其次,利用多种文本嵌入模型(包括BERT、Med-BERT、Clinical BERT和Word2Vec)将文本转换为向量表示;接着,使用UMAP(Uniform Manifold Approximation and Projection)进行降维可视化,并应用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)进行聚类分析;最后,引入多种LLM(包括LLaMA 2 13B、PMC-LLaMA、Mixtral 8x7B和GPT-3.5)对文本进行认知预处理和分类,以提升聚类效果。
IV. 结果
A. 数据集结构与文本变异性分析
研究发现,吞咽障碍患者的诊断文本长度和结构差异显著:91%的诊断记录包含0-10个单词,少数超过40个单词;字符数最多超过200,且相同症状(如GERD)在文本中的位置不固定。这种高变异性凸显了非结构化文本分析的难度,也为后续NLP和LLM的应用提供了必要性。
B. 基于嵌入的无监督聚类
直接使用文本嵌入(如BERT、Word2Vec)进行聚类时,患者群体在降维后呈现分散状态,无法形成清晰的医学意义分组。不同嵌入模型生成的簇间重叠度低(IoU多数低于50%),且簇内患者病因无明显规律,表明传统嵌入方法难以捕捉吞咽障碍的复杂病理特征。
C. 认知预处理对聚类效率的影响
通过LLM对诊断文本进行摘要生成和语义增强后,聚类效果有所改善。GPT-3.5生成的摘要能形成两个主要簇,且与癌症相关诊断的IoU达66%,而开源模型(如PMC-LLaMA)仍倾向于将多数患者归入单一簇(如GERD相关)。这表明闭源LLM在语义理解和摘要生成方面更具优势。
D. LLM对吞咽障碍细微差异的理解
研究进一步测试LLM对吞咽障碍病因的分类能力(分为神经源性、神经退行性、癌症和其他四类)。结果显示,即使提供类别定义,开源LLM(如Mixtral、PMC-LLaMA)仍难以区分神经源性与神经退行性疾病,而GPT-3.5与专家标注的IoU超过50%,尤其在癌症类别中表现最佳。这说明LLM在医学细粒度分类任务中仍存在局限性,但闭源模型通过持续优化显示出潜力。
研究结论指出,传统NLP技术因非结构化文本的高变异性而难以有效区分吞咽障碍患者类型;LLM虽能提升文本理解能力,但其性能受模型类型(闭源优于开源)和医学知识整合程度影响,且存在幻觉(Hallucination)风险。未来需通过检索增强生成(RAG)、多模态数据融合等技术进一步提升LLM在医疗数据分析中的可靠性和准确性。该研究为利用LLM挖掘EHR数据、实现吞咽障碍精准医疗提供了方法论基础,也为其他复杂症状的智能分析开辟了新路径。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号