编辑推荐:
在自然语言处理(NLP)用于临床信息提取的领域,因缺乏西班牙文过敏相关临床语料库,影响了信息提取系统的训练与测试。研究人员构建坚果过敏临床叙事语料库,经实验,基于该语料库训练的模型 F-measure 达 86.2%,为过敏研究和临床应用提供支持。
在医学领域,坚果过敏一直是个棘手的问题。它会引发患者如过敏反应,严重时甚至出现过敏性休克,危及生命。而且坚果过敏还可能作为隐藏过敏原,导致不同坚果或与其他植物性食物之间的交叉反应和共同致敏,给临床诊断和管理带来极大挑战。
与此同时,自然语言处理(NLP)在临床信息提取方面有着巨大潜力,但这需要大量高质量的语料库来训练和优化信息提取系统。可在西班牙语临床文本领域,公开可用的临床文本较少,尤其缺乏聚焦过敏过程的临床笔记相关语料库,这就像在建造高楼时缺少关键的建筑材料,严重限制了 NLP 技术在西班牙语临床信息处理中的应用。
为了解决这些问题,来自西班牙马德里的 Hospital Universitario Fundación de Alcorcón(HUFA)和 Universidad Carlos III de Madrid 的研究人员展开了深入研究。他们致力于创建一个坚果过敏相关的临床语料库,并通过实验验证其有效性,为后续的过敏研究和临床应用提供有力支持。最终,该研究成果发表在《Scientific Data》上。
研究人员开展这项研究主要用到了以下几个关键技术方法:
- 数据收集与筛选:从 HUFA 的过敏科和急诊科 1998 - 2021 年的 1,333,678 份匿名医疗记录中,筛选出 235,040 份与坚果过敏相关记录,再由医学专家挑选出 828 份高度相关记录。
- 语料库构建:先依据医学词典制定初步标注指南,利用 SpaCy 库和医学人员创建的词典进行预标注,再借助 Doccano 工具让医生手动标注,完善标注指南,形成高质量标注数据集。
- 模型训练与验证:采用基于大语言模型(LLM)的框架,如 BERT,对不同变体模型(PlanTL - GOB - ES ROBERTA Large - BNE、PlanTL - GOB - ES ROBERTA Base - biomedical - clinical - es、XLM ROBERTA Base)进行训练和微调,在命名实体识别(NER)任务中验证语料库有效性。
下面来详细看看研究结果:
- 语料库创建:
- 文本来源与筛选:从大量医疗记录中筛选出 828 份与坚果过敏高度相关的临床笔记,这些笔记涵盖多种模板类型,包含丰富医学信息,但存在书写不规范等问题。
- 标注方案:确定了共病(Comorbidities)、表现(Manifestations)、过敏(Allergy)、坚果过敏(Nut allergy)、辅助因素(Cofactors)、蛋白质(Proteins)、治疗(Treatments)等语义组的标注规则,标注包括否定语境,且对嵌套实体进行标注。
- 标注过程:先进行预标注,再用 Doccano 工具手动标注。通过对 60 篇文本的三重标注计算标注者间一致性(IIA),发现 “辅助因素” 和 “共病” 类别标注分歧较大,总体 IIA 为 72.2%,5.81% 的标注为嵌套标注。
- 技术验证:
- 实验设置:将标注文本转换为 BIO 格式,选取 80% 文本训练模型,20% 用于验证。对不同模型设置不同超参数进行训练,并运用多种正则化技术防止过拟合。
- 结果与分析:BIO - CLI 模型效果最佳,但与其他模型无显著差异。训练至第四轮后各模型无明显提升。分析发现模型错误源于低频词、词汇表外词、重复记录和文本特征等因素。通过统计分析(方差检查、ANOVA 分析、MRT 测试)表明各模型间无显著差异。
研究结论和讨论部分指出,该研究创建的坚果过敏临床叙事语料库,为过敏领域的自然语言处理研究提供了有价值的资源。实验结果证明该语料库适用于训练和测试过敏学领域的命名实体识别方法,有助于提高临床信息提取的准确性,为临床诊断、治疗和研究提供更可靠的支持。同时,研究也发现了当前模型存在的问题,为后续改进和优化提供了方向,对推动过敏学和自然语言处理在医学领域的融合发展具有重要意义。