利用预训练语言模型从癫痫评估报告中提取发作频率：开拓癫痫诊疗新视野

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《npj Digital Medicine》：Leveraging pretrained language models for seizure frequency extraction from epilepsy evaluation reports

【字体：大中小】 时间：2025年04月15日 来源：npj Digital Medicine 12.4

编辑推荐：

　　癫痫影响全球众多患者，突发癫痫意外死亡（SUDEP）风险高。为精准评估 SUDEP 风险，研究人员开展从癫痫监测单元（EMU）评估报告提取发作频率的研究。结果显示 GPT-4 性能最佳，该研究为自动化评估 SUDEP 风险及癫痫诊疗提供了新途径。

涓轰簡淇冭繘绉戝鐨勪紶鎾紝鐢熺墿閫氶噰闆嗕簡杩欑瘒鏂囩珷锛屽闇€鑻辨枃鍘熸枃锛岃鐐瑰嚮锛�璁㈤槄BioHot绱㈠彇鍘熸枃

　　癫痫，这一古老而又神秘的疾病，长久以来困扰着全球无数患者。据统计，美国有超 340 万人、全球多达 6500 万人深受其害。即便各类治疗手段不断涌现，仍有 40% 的癫痫患者发作难以控制。而突发癫痫意外死亡（Sudden Unexpected Death in Epilepsy，SUDEP）更是癫痫患者的 “夺命杀手”，它指的是癫痫患者在无其他明确死因情况下的突然死亡，每年每 1000 名癫痫患者中就有超过 1 人死于 SUDEP 。目前，SUDEP 的发病机制尚不明确，诸多风险因素中，发作频率至关重要。例如，SUDEP-7 量表中的多个风险因素都与发作频率紧密相关。然而，癫痫监测单元（Epilepsy Monitoring Unit，EMU）评估报告中的发作频率信息常以自由文本形式呈现，内容繁杂多样，有的段落包含单一或多个发作频率，有的则完全缺失，这给自动化的 SUDEP 风险评估带来巨大挑战。为了攻克这一难题，来自美国得克萨斯大学健康科学中心休斯顿分校（The University of Texas Health Science Center at Houston）的研究人员展开了深入研究，相关成果发表在《npj Digital Medicine》杂志上。

研究人员为实现从 EMU 评估报告中自动提取发作频率信息以助力 SUDEP 风险评估的目标，开展了两项关键任务研究：一是提取描述发作频率的短语，二是提取发作频率的详细属性（如发作事件、数量等）。研究采用了多种预训练语言模型，包括基于 BERT 架构的 bert-large-cased、biobert-large-cased、Bio_ClinicalBERT，以及生成式大语言模型（Large Language Models，LLMs）GPT-4、GPT-3.5 Turbo 和 Llama-2-70b-hf。他们利用来自美国和欧洲 7 家机构超 2700 名癫痫患者的 EMU 报告数据，从中提取 2242 个自由文本段，经筛选后 800 个实例用于手动标注，再将其划分为训练集、验证集和测试集。在模型训练中，BERT 模型采用 IOB2 标记方案进行微调，生成式 LLMs 则通过指令调整来生成带标签的输出。

模型性能评估

在发作频率短语提取任务中，对各模型进行测试，结果显示 GPT-4 表现最佳，其精度达到 86.61%，召回率为 85.04%，F1 分数为 85.79% 。在发作频率属性提取任务里，GPT-4 同样拔得头筹，精度为 90.23%，召回率 93.51%，F1 分数 91.84% 。综合两项任务，将 GPT-4 用于发作频率短语和属性提取时，在结构化发作频率提取中性能最优，F1 分数达 85.82% 。

模型应用拓展与分析

研究人员进一步探究了 GPT-4 处理未明确发作频率信息文本的能力，发现其识别准确率较高，F1 分数达到 96.55% 。在对比不同提取策略时，先提取频率短语再进行属性提取的方法虽 F1 分数略低于 GPT-4 双任务提取，但差异无统计学意义。此外，研究人员用均值绝对误差（Mean Absolute Error，MAE）分析模型提取的频率值与实际值的差异，发现 GPT-4 用于双任务提取时 MAE 最低，为 0.0594 。基于不同模型提取的结构化发作频率计算 SUDEP-7 分数，同样是 GPT-4 双任务提取的 MAE 最低，为 0.1101 。

训练集规模影响研究

研究人员还研究了训练集规模对模型性能的影响。实验发现，当训练集规模减小到 170 个实例时，GPT 系列模型在发作频率短语和属性提取任务中的 F1 分数显著下降；biobert-large-cased 模型在较小训练集下性能也明显下降；其他模型在训练集减少到 170 个实例时仍能保持一定性能，但继续减少到 70 个实例时性能大幅下降。

模型错误分析及与其他研究对比

研究中还分析了模型的错误情况，存在实体识别错误、部分识别和未识别等问题。与其他研究相比，该研究模型能处理更复杂的发作频率场景，如涉及数量和持续时间范围、多种时间表达类型等，且数据来源更广泛。不过，研究也存在局限性，如数据集选取未按机构分层，可能存在机构特异性偏差；数据集中无发作病例代表性不足；评估方式过于严格；属性类型过多等。

这项研究首次探索了 LLMs 在从临床文本中提取结构化发作频率细节的潜力，证实了 GPT-4 在相关任务中的卓越性能。它为癫痫临床诊疗中发作频率信息的自动化提取提供了有效方法，有助于更精准地评估 SUDEP 风险，推动癫痫诊疗向标准化、智能化发展。但研究仍需改进，后续可针对现有局限性开展进一步研究，优化模型性能，更好地服务于癫痫患者的临床管理。

涓嬭浇瀹夋嵎浼︾數瀛愪功銆婇€氳繃缁嗚優浠ｈ阿鎻ず鏂扮殑鑽墿闈剁偣銆嬫帰绱㈠浣曢€氳繃浠ｈ阿鍒嗘瀽淇冭繘鎮ㄧ殑鑽墿鍙戠幇鐮旂┒

10x Genomics鏂板搧Visium HD 寮€鍚崟缁嗚優鍒嗚鲸鐜囩殑鍏ㄨ浆褰曠粍绌洪棿鍒嗘瀽锛�

娆㈣繋涓嬭浇Twist銆婁笉鏂彉鍖栫殑CRISPR绛涢€夋牸灞€銆嬬數瀛愪功

鍗曠粏鑳炴祴搴忓叆闂ㄥぇ璁插爞 - 娣卞叆浜嗚В浠庣涓€涓崟缁嗚優瀹為獙璁捐鍒版暟鎹川鎺т笌鍙鍖栬В鏋�

涓嬭浇銆婄粏鑳炲唴铔嬬櫧璐ㄤ簰浣滃垎鏋愭柟娉曠數瀛愪功銆�