精神病发作识别新突破:基于规则方法、机器学习与预训练语言模型的电子健康记录分析

《Translational Psychiatry》:Identifying psychosis episodes in psychiatric admission notes via rule-based methods, machine learning, and pre-trained language models

【字体: 时间:2025年12月01日 来源:Translational Psychiatry 6.2

编辑推荐:

  本研究针对精神病早期诊断困难、电子健康记录(EHR)结构化数据不足等问题,开发了基于自然语言处理(NLP)的 psychosis 识别系统。通过分析4,617份精神科入院记录,发现TF-IDF+XGBoost模型(F1=0.8881)和BlueBERT模型(F1=0.8841)显著优于传统ICD编码方法(F1=0.7608),证明关键词预筛选能有效提升模型性能,为EHR中精神病自动检测提供了重要技术参考。

  
在精神健康领域,早期准确识别精神病发作对治疗和预后至关重要。然而,精神病诊断面临诸多挑战:患者往往缺乏自知力导致就诊延迟,临床表现复杂多样,且存在明显的污名化现象。传统上,电子健康记录(EHR)中的国际疾病分类(ICD)编码被用于回顾性识别精神病病例,但这些结构化数据常常不准确、模糊或缺失。相比之下,包含丰富临床信息的非结构化文本记录——如入院记录——尚未得到充分开发利用。
为了解决这些问题,由哈佛大学等单位的研究团队在《Translational Psychiatry》上发表了一项研究,系统评估了不同自然语言处理(NLP)方法在精神病识别中的效果。研究收集了2005年至2019年间麦克莱恩医院的4,617份首次精神科入院记录(1,196例精神病病例 vs. 3,433例对照),患者年龄为16-35岁,这一范围基于精神分裂症发病年龄的75百分位数确定。
研究采用了几种关键技术方法:首先基于专家 curated 的关键词列表进行信息预筛选;然后比较了规则基算法、机器学习模型(包括逻辑回归、随机森林、多层感知器和XGBoost)以及预训练语言模型(ClinicalBERT和BlueBERT)的性能。所有模型使用TF-IDF(Term Frequency-Inverse Document Frequency)进行文本编码,并通过自助法(bootstrap)重采样1000次评估性能。
主要研究结果
规则基算法的局限性
单纯关键词匹配算法虽然召回率(recall)达到1.0,但精确度(precision)极低(仅0.2587),产生大量假阳性。这类算法无法理解否定表达和不确定性语境,如“无精神病迹象”也会被错误标记。
机器学习模型的优越表现
XGBoost结合TF-IDF特征在基关键词筛选的笔记集上表现最佳,F1分数达0.8881(AUROC[95% CI]:0.9725[0.9717, 0.9733])。相比使用完整笔记(F1=0.8646)和全关键词筛选笔记(F1=0.8787),基关键词筛选带来了明显性能提升。XGBoost在所有指标上均优于其他机器学习模型,显示出其在平衡精确度和召回率方面的优势。
预训练语言模型的竞争力
BlueBERT在基关键词筛选的笔记集上达到F1分数0.8841(AUROC[95% CI]:0.97[0.9580, 0.9820]),与XGBoost性能相当。预训练语言模型虽然需要更多计算资源,但其领域适应性(如BlueBERT在生物医学文本上的预训练)使其能有效处理医学术语和叙事结构。
与传统方法的比较
所有NLP方法均显著优于基于出院摘要ICD编码的传统识别方法(F1=0.7608)。值得注意的是,出院记录通常比入院记录更准确,因为它们包含了整个住院期间的观察信息,这使得NLP方法的提升更为显著。
讨论与意义
该研究证明了NLP技术在精神病识别中的巨大潜力。关键词预筛选策略不仅解决了预训练语言模型的输入长度限制,还减少了噪声,提高了计算效率。然而,纳入更多从PubMed文本和临床记录中提取的相关关键词并未带来额外性能提升,表明基关键词列表已经足够捕捉核心信息。
在实践应用方面,XGBoost等机器学习方法计算需求较低,更适合资源有限的临床环境;而预训练语言模型虽然性能优异,但需要GPU等高性能计算资源。研究还指出,算法可能复制临床医生的偏见,例如以往研究表明黑人抑郁症患者更容易被误诊为精神病。
这项研究的实际意义深远:自动化精神病检测可用于识别新兴精神病患者,改善目前依赖患者主动求助的低效检测策略。此外,该方法可加速神经精神流行病学研究的队列识别,取代耗时费力的人工筛选。
局限与展望
研究存在几方面局限:入院记录可能受临床医生偏见和信息不完整影响;缺乏超参数搜索可能限制了模型性能;模型可解释性有待进一步研究。未来工作可纳入更丰富的数据源、纵向监测以及自动超参数优化策略,并测试模型在关键词屏蔽后的鲁棒性。
总之,这项研究为EHR中精神病识别的NLP应用提供了全面评估和实用指南,标志着向更精准、高效的精神健康诊断迈出了重要一步。随着技术不断优化,这些方法有望整合到更全面的诊断框架中,增强精神卫生专业人员的决策能力。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号