《npj Digital Medicine》:Leveraging pretrained language models for seizure frequency extraction from epilepsy evaluation reports
编辑推荐:
癫痫影响全球众多患者,突发癫痫意外死亡(SUDEP)风险高。为精准评估 SUDEP 风险,研究人员开展从癫痫监测单元(EMU)评估报告提取发作频率的研究。结果显示 GPT-4 性能最佳,该研究为自动化评估 SUDEP 风险及癫痫诊疗提供了新途径。
癫痫,这一古老而又神秘的疾病,长久以来困扰着全球无数患者。据统计,美国有超 340 万人、全球多达 6500 万人深受其害。即便各类治疗手段不断涌现,仍有 40% 的癫痫患者发作难以控制。而突发癫痫意外死亡(Sudden Unexpected Death in Epilepsy,SUDEP)更是癫痫患者的 “夺命杀手”,它指的是癫痫患者在无其他明确死因情况下的突然死亡,每年每 1000 名癫痫患者中就有超过 1 人死于 SUDEP 。目前,SUDEP 的发病机制尚不明确,诸多风险因素中,发作频率至关重要。例如,SUDEP-7 量表中的多个风险因素都与发作频率紧密相关 。然而,癫痫监测单元(Epilepsy Monitoring Unit,EMU)评估报告中的发作频率信息常以自由文本形式呈现,内容繁杂多样,有的段落包含单一或多个发作频率,有的则完全缺失,这给自动化的 SUDEP
风险评估 带来巨大挑战。为了攻克这一难题,来自美国得克萨斯大学健康科学中心休斯顿分校(The University of Texas Health Science Center at Houston)的研究人员展开了深入研究,相关成果发表在《npj Digital Medicine》杂志上。
研究人员为实现从 EMU 评估报告中自动提取发作频率信息以助力 SUDEP 风险评估的目标,开展了两项关键任务研究:一是提取描述发作频率的短语,二是提取发作频率的详细属性(如发作事件、数量等)。研究采用了多种预训练语言模型,包括基于 BERT 架构的 bert-large-cased、biobert-large-cased、Bio_ClinicalBERT,以及生成式大语言模型(Large Language Models,LLMs)GPT-4、GPT-3.5 Turbo 和 Llama-2-70b-hf。他们利用来自美国和欧洲 7 家机构超 2700 名癫痫患者的 EMU 报告数据,从中提取 2242 个自由文本段,经筛选后 800 个实例用于手动标注,再将其划分为训练集、验证集和测试集。在模型训练中,BERT 模型采用 IOB2 标记方案进行微调,生成式 LLMs 则通过指令调整来生成带标签的输出 。
模型性能评估
在发作频率短语提取任务中,对各模型进行测试,结果显示 GPT-4 表现最佳,其精度达到 86.61%,召回率为 85.04%,F1 分数为 85.79% 。在发作频率属性提取任务里,GPT-4 同样拔得头筹,精度为 90.23%,召回率 93.51%,F1 分数 91.84% 。综合两项任务,将 GPT-4 用于发作频率短语和属性提取时,在结构化发作频率提取中性能最优,F1 分数达 85.82% 。
模型应用拓展与分析
研究人员进一步探究了 GPT-4 处理未明确发作频率信息文本的能力,发现其识别准确率较高,F1 分数达到 96.55% 。在对比不同提取策略时,先提取频率短语再进行属性提取的方法虽 F1 分数略低于 GPT-4 双任务提取,但差异无统计学意义 。此外,研究人员用均值绝对误差(Mean Absolute Error,MAE)分析模型提取的频率值与实际值的差异,发现 GPT-4 用于双任务提取时 MAE 最低,为 0.0594 。基于不同模型提取的结构化发作频率计算 SUDEP-7 分数,同样是 GPT-4 双任务提取的 MAE 最低,为 0.1101 。
训练集规模影响研究
研究人员还研究了训练集规模对模型性能的影响。实验发现,当训练集规模减小到 170 个实例时,GPT 系列模型在发作频率短语和属性提取任务中的 F1 分数显著下降;biobert-large-cased 模型在较小训练集下性能也明显下降;其他模型在训练集减少到 170 个实例时仍能保持一定性能,但继续减少到 70 个实例时性能大幅下降 。
模型错误分析及与其他研究对比
研究中还分析了模型的错误情况,存在实体识别错误、部分识别和未识别等问题 。与其他研究相比,该研究模型能处理更复杂的发作频率场景,如涉及数量和持续时间范围、多种时间表达类型等,且数据来源更广泛 。不过,研究也存在局限性,如数据集选取未按机构分层,可能存在机构特异性偏差;数据集中无发作病例代表性不足;评估方式过于严格;属性类型过多等 。
这项研究首次探索了 LLMs 在从临床文本中提取结构化发作频率细节的潜力,证实了 GPT-4 在相关任务中的卓越性能。它为癫痫临床诊疗中发作频率信息的自动化提取提供了有效方法,有助于更精准地评估 SUDEP 风险,推动癫痫诊疗向标准化、智能化发展。但研究仍需改进,后续可针对现有局限性开展进一步研究,优化模型性能,更好地服务于癫痫患者的临床管理。
鎵撹祻
涓嬭浇瀹夋嵎浼︾數瀛愪功銆婇€氳繃缁嗚優浠h阿鎻ず鏂扮殑鑽墿闈剁偣銆嬫帰绱㈠浣曢€氳繃浠h阿鍒嗘瀽淇冭繘鎮ㄧ殑鑽墿鍙戠幇鐮旂┒
10x Genomics鏂板搧Visium HD 寮€鍚崟缁嗚優鍒嗚鲸鐜囩殑鍏ㄨ浆褰曠粍绌洪棿鍒嗘瀽锛�
娆㈣繋涓嬭浇Twist銆婁笉鏂彉鍖栫殑CRISPR绛涢€夋牸灞€銆嬬數瀛愪功
鍗曠粏鑳炴祴搴忓叆闂ㄥぇ璁插爞 - 娣卞叆浜嗚В浠庣涓€涓崟缁嗚優瀹為獙璁捐鍒版暟鎹川鎺т笌鍙鍖栬В鏋�
涓嬭浇銆婄粏鑳炲唴铔嬬櫧璐ㄤ簰浣滃垎鏋愭柟娉曠數瀛愪功銆�