临床特定预训练语言模型表现最佳:在多项临床 NLP 任务测试中,专门在临床文本上训练的 Spanish biomedical and clinical RoBERTa 模型表现突出,在转诊优先级排序任务中,微调后宏观 F1 分数达到 88.85% ;在转诊专科分类任务中,宏观 F1 分数为 53.79%,超过了其他通用模型。这表明模型与目标领域的契合度越高,性能就越优异1。
持续预训练有提升但需权衡资源:利用本地临床数据对模型进行持续预训练,能提升模型性能。例如,XLM?RoBERTa 模型在持续预训练并微调后,转诊优先级排序任务的宏观 F1 分数从 88.85% 提升到 89.03% ,但这种提升需要消耗大量计算资源,训练时间大幅增加,因此在实际应用中需要权衡2。
提示预测范式有待完善:使用提示预测范式(prompt and predict)的大语言模型(LLMs)在解决临床任务时,即使采用少样本学习,性能仍不尽人意。在转诊优先级排序的零样本学习中,Llama 2 模型的宏观 F1 分数仅为 6.49% ,少样本学习提升到 56.70% ,但仍低于微调的预训练语言模型3。