利用预训练语言模型从癫痫评估报告中提取发作频率:开拓癫痫诊疗新视野

《npj Digital Medicine》:Leveraging pretrained language models for seizure frequency extraction from epilepsy evaluation reports

【字体: 时间:2025年04月15日 来源:npj Digital Medicine 12.4

编辑推荐:

  癫痫影响全球众多患者,突发癫痫意外死亡(SUDEP)风险高。为精准评估 SUDEP 风险,研究人员开展从癫痫监测单元(EMU)评估报告提取发作频率的研究。结果显示 GPT-4 性能最佳,该研究为自动化评估 SUDEP 风险及癫痫诊疗提供了新途径。

  癫痫,这一古老而又神秘的疾病,长久以来困扰着全球无数患者。据统计,美国有超 340 万人、全球多达 6500 万人深受其害。即便各类治疗手段不断涌现,仍有 40% 的癫痫患者发作难以控制。而突发癫痫意外死亡(Sudden Unexpected Death in Epilepsy,SUDEP)更是癫痫患者的 “夺命杀手”,它指的是癫痫患者在无其他明确死因情况下的突然死亡,每年每 1000 名癫痫患者中就有超过 1 人死于 SUDEP 。目前,SUDEP 的发病机制尚不明确,诸多风险因素中,发作频率至关重要。例如,SUDEP-7 量表中的多个风险因素都与发作频率紧密相关 。然而,癫痫监测单元(Epilepsy Monitoring Unit,EMU)评估报告中的发作频率信息常以自由文本形式呈现,内容繁杂多样,有的段落包含单一或多个发作频率,有的则完全缺失,这给自动化的 SUDEP 风险评估带来巨大挑战。为了攻克这一难题,来自美国得克萨斯大学健康科学中心休斯顿分校(The University of Texas Health Science Center at Houston)的研究人员展开了深入研究,相关成果发表在《npj Digital Medicine》杂志上。
研究人员为实现从 EMU 评估报告中自动提取发作频率信息以助力 SUDEP 风险评估的目标,开展了两项关键任务研究:一是提取描述发作频率的短语,二是提取发作频率的详细属性(如发作事件、数量等)。研究采用了多种预训练语言模型,包括基于 BERT 架构的 bert-large-cased、biobert-large-cased、Bio_ClinicalBERT,以及生成式大语言模型(Large Language Models,LLMs)GPT-4、GPT-3.5 Turbo 和 Llama-2-70b-hf。他们利用来自美国和欧洲 7 家机构超 2700 名癫痫患者的 EMU 报告数据,从中提取 2242 个自由文本段,经筛选后 800 个实例用于手动标注,再将其划分为训练集、验证集和测试集。在模型训练中,BERT 模型采用 IOB2 标记方案进行微调,生成式 LLMs 则通过指令调整来生成带标签的输出 。

模型性能评估


在发作频率短语提取任务中,对各模型进行测试,结果显示 GPT-4 表现最佳,其精度达到 86.61%,召回率为 85.04%,F1 分数为 85.79% 。在发作频率属性提取任务里,GPT-4 同样拔得头筹,精度为 90.23%,召回率 93.51%,F1 分数 91.84% 。综合两项任务,将 GPT-4 用于发作频率短语和属性提取时,在结构化发作频率提取中性能最优,F1 分数达 85.82% 。

模型应用拓展与分析


研究人员进一步探究了 GPT-4 处理未明确发作频率信息文本的能力,发现其识别准确率较高,F1 分数达到 96.55% 。在对比不同提取策略时,先提取频率短语再进行属性提取的方法虽 F1 分数略低于 GPT-4 双任务提取,但差异无统计学意义 。此外,研究人员用均值绝对误差(Mean Absolute Error,MAE)分析模型提取的频率值与实际值的差异,发现 GPT-4 用于双任务提取时 MAE 最低,为 0.0594 。基于不同模型提取的结构化发作频率计算 SUDEP-7 分数,同样是 GPT-4 双任务提取的 MAE 最低,为 0.1101 。

训练集规模影响研究


研究人员还研究了训练集规模对模型性能的影响。实验发现,当训练集规模减小到 170 个实例时,GPT 系列模型在发作频率短语和属性提取任务中的 F1 分数显著下降;biobert-large-cased 模型在较小训练集下性能也明显下降;其他模型在训练集减少到 170 个实例时仍能保持一定性能,但继续减少到 70 个实例时性能大幅下降 。

模型错误分析及与其他研究对比


研究中还分析了模型的错误情况,存在实体识别错误、部分识别和未识别等问题 。与其他研究相比,该研究模型能处理更复杂的发作频率场景,如涉及数量和持续时间范围、多种时间表达类型等,且数据来源更广泛 。不过,研究也存在局限性,如数据集选取未按机构分层,可能存在机构特异性偏差;数据集中无发作病例代表性不足;评估方式过于严格;属性类型过多等 。

这项研究首次探索了 LLMs 在从临床文本中提取结构化发作频率细节的潜力,证实了 GPT-4 在相关任务中的卓越性能。它为癫痫临床诊疗中发作频率信息的自动化提取提供了有效方法,有助于更精准地评估 SUDEP 风险,推动癫痫诊疗向标准化、智能化发展。但研究仍需改进,后续可针对现有局限性开展进一步研究,优化模型性能,更好地服务于癫痫患者的临床管理。

涓嬭浇瀹夋嵎浼︾數瀛愪功銆婇€氳繃缁嗚優浠h阿鎻ず鏂扮殑鑽墿闈剁偣銆嬫帰绱㈠浣曢€氳繃浠h阿鍒嗘瀽淇冭繘鎮ㄧ殑鑽墿鍙戠幇鐮旂┒

10x Genomics鏂板搧Visium HD 寮€鍚崟缁嗚優鍒嗚鲸鐜囩殑鍏ㄨ浆褰曠粍绌洪棿鍒嗘瀽锛�

娆㈣繋涓嬭浇Twist銆婁笉鏂彉鍖栫殑CRISPR绛涢€夋牸灞€銆嬬數瀛愪功

鍗曠粏鑳炴祴搴忓叆闂ㄥぇ璁插爞 - 娣卞叆浜嗚В浠庣涓€涓崟缁嗚優瀹為獙璁捐鍒版暟鎹川鎺т笌鍙鍖栬В鏋�

涓嬭浇銆婄粏鑳炲唴铔嬬櫧璐ㄤ簰浣滃垎鏋愭柟娉曠數瀛愪功銆�

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号