临床环境下数据受限场景的 NLP 建模新突破:精准指导与实践引领

【字体: 时间:2025年03月08日 来源:BMC Medical Informatics and Decision Making 3.3

编辑推荐:

  研究人员针对临床数据受限问题,开展 NLP 建模研究,明确不同范式性能差异,为临床 NLP 实践提供依据。

  在医疗领域,临床决策常常依赖于大量的文本数据,可这些数据就像散落在各处的拼图碎片,杂乱无章。传统方法面对这些 “散装” 的文本数据,往往束手无策。自然语言处理(NLP)技术的出现,就像给医学领域带来了一把 “万能钥匙”,看似能轻松打开分析临床文本数据的大门。但现实却很 “骨感”,临床数据的获取受到诸多限制,比如患者隐私问题、数据安全要求等,使得这把 “钥匙” 在使用时困难重重。同时,NLP 技术在临床应用中还需要专业的领域知识,这无疑又给它的发展增加了一道障碍。为了攻克这些难题,来自智利多所高校(包括智利大学、圣塞巴斯蒂安大学、智利天主教大学等)的研究人员 Fabián Villena、Felipe Bravo?Marquez 和 Jocelyn Dunstan 等开展了一项极具意义的研究,相关成果发表在《BMC Medical Informatics and Decision Making》上。
这项研究主要运用了模拟实验和模型对比分析的方法。研究人员模拟了三种不同数据可用性的临床场景,使用智利等待名单中的数据,涵盖了转诊优先级排序、转诊专科分类和命名实体识别等多个临床 NLP 任务。他们选用了多种基础模型,包括 XLM?RoBERTa、Spanish RoBERTa、Spanish biomedical and clinical RoBERTa 和 Llama 等,通过不同的建模范式进行实验,以此来探究不同数据可用性下各模型和范式的性能表现。

研究结果具体如下:

  • 临床特定预训练语言模型表现最佳:在多项临床 NLP 任务测试中,专门在临床文本上训练的 Spanish biomedical and clinical RoBERTa 模型表现突出,在转诊优先级排序任务中,微调后宏观 F1 分数达到 88.85% ;在转诊专科分类任务中,宏观 F1 分数为 53.79%,超过了其他通用模型。这表明模型与目标领域的契合度越高,性能就越优异1
  • 持续预训练有提升但需权衡资源:利用本地临床数据对模型进行持续预训练,能提升模型性能。例如,XLM?RoBERTa 模型在持续预训练并微调后,转诊优先级排序任务的宏观 F1 分数从 88.85% 提升到 89.03% ,但这种提升需要消耗大量计算资源,训练时间大幅增加,因此在实际应用中需要权衡2
  • 提示预测范式有待完善:使用提示预测范式(prompt and predict)的大语言模型(LLMs)在解决临床任务时,即使采用少样本学习,性能仍不尽人意。在转诊优先级排序的零样本学习中,Llama 2 模型的宏观 F1 分数仅为 6.49% ,少样本学习提升到 56.70% ,但仍低于微调的预训练语言模型3
  • 训练数据量与模型性能的关系:研究发现,训练数据量与模型性能呈正相关,但并非越多越好,存在一个饱和点。在转诊优先级排序任务中,少量训练数据就能让模型达到较高性能,而转诊专科分类任务则需要更多数据4

研究结论和讨论部分强调了多方面的重要意义。在模型选择上,要优先选择与目标领域匹配的模型,以实现最佳性能。在数据利用方面,根据数据可用性选择合适的范式,数据充足时可考虑 “预训练、微调并预测” 范式,数据有限时 “微调并预测” 更实用,无数据时 “提示并预测” 范式(尤其是少样本学习)是不错的选择。同时,临床 NLP 技术发展迅速,研究人员需要持续关注新技术。此外,研究还指出医疗结构需具备一定的组织成熟度,才能更好地实施临床 NLP 范式。不过,该研究也存在局限性,如实验场景可能存在地域偏差、模型选择不够全面、数据集可能存在偏差等,为后续研究指明了方向。这项研究为临床 NLP 从业者提供了基于证据的建议,对推动临床 NLP 技术在现实世界中的有效应用具有重要的指导价值。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
生物通微信公众号
微信
新浪微博

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号