编辑推荐:
当前医学大语言模型(LLMs)应用存争议,为解决其评估及提升能力问题,研究人员构建 MedS-Bench 基准和 MedS-Ins 数据集开展研究。结果显示,新模型 MMedIns-Llama 3 性能卓越,该研究推动了医学 LLMs 向临床应用迈进。
在科技飞速发展的当下,大语言模型(LLMs)宛如一颗璀璨的新星,在自然语言处理领域大放异彩,无论是语言翻译、文本生成,还是对话交互,都能看到它们的出色表现。这股科技浪潮也席卷到了医学领域,LLMs 在医疗领域的多项选择题问答(MCQA)基准测试中斩获高分,甚至成功通过了美国医学图书馆协会(UMLS)的考试,在临床文本总结方面,若采用恰当的提示策略,也能展现出专家级别的水准。
然而,这看似一片光明的前景下,却隐藏着诸多问题。在实际临床应用场景中,LLMs 的表现却不尽如人意。比如,它们对国际疾病分类(ICD)代码的理解欠佳,在预测临床程序时准确性不足,还常常误读电子健康记录(EHR)数据。这些问题的根源在于当前的基准测试大多聚焦于 MCQA,无法全面反映 LLMs 在真实临床环境中的实用价值。为了打破这一僵局,来自上海交通大学和上海人工智能实验室等机构的研究人员开展了深入研究。
研究人员构建了 MedS-Bench(S 代表 Super)这个综合性基准,它突破了传统 MCQA 的局限,涵盖了 11 个高级临床任务类别,如临床报告总结、治疗建议、诊断和命名实体识别等。通过这个基准,能够更全面地评估 LLMs 在医学任务中的优势与不足。同时,受 Super-NaturalInstructions 理念的启发,研究人员还构建了 MedS-Ins,这是首个综合性医学指令微调数据集。它整合了 58 个开源生物医学自然语言处理数据集,包含 500 万个实例和 19000 条指令,涉及 122 个临床任务。
基于 MedS-Ins 数据集,研究人员对开源医学语言模型进行了广泛的指令微调,并探索了零样本和少样本提示策略,最终得到了新的医学大语言模型 MMedIns-Llama 3。在多种临床任务中,MMedIns-Llama 3 的表现超越了包括 GPT-4 和 Claude-3.5 在内的领先闭源模型。
在研究方法上,研究人员主要采用了数据收集与处理、模型训练和模型评估等技术。数据收集方面,从自然指令数据集和现有生物医学自然语言处理(BioNLP)数据集获取数据,经筛选、改写等操作构建 MedS-Ins 数据集。模型训练时,以多语言大语言模型(如 MMed-Llama 3)为基础模型,在 MedS-Ins 数据集上进行监督微调,采用自动回归损失和交叉熵损失优化模型。评估阶段,选取 9 种主流大语言模型作为基线,针对不同任务设置准确率、精确率、召回率、F1 分数、BLEU 和 ROUGE 等评估指标。
下面来看看具体的研究结果:
- 多语言多项选择题问答:现有闭源 LLMs 在该任务上表现出色,如 GPT-4 在 MedQA 上准确率达 85.8 。MMedIns-Llama 3 虽未专门训练,但平均准确率达 63.9 ,超越 GPT-3.5。
- 文本总结:闭源模型表现优于开源模型,如 GPT-4 和 Claude-3.5 平均 BLEU/ROUGE 分数分别为 24.46/25.66 和 26.29/27.36。MMedIns-Llama 3 表现最佳,平均分数为 46.82/48.38。
- 信息提取:InternLM 2 表现出色,平均得分 79.11。MMedIns-Llama 3 总体表现最佳,平均得分 83.77,在参与者提取任务中优势明显。
- 概念解释:GPT-4 表现较好,平均得分 19.37/21.58。MMedIns-Llama 3 显著优于其他模型,平均得分 34.43/37.47。
- 答案解释(推理):Claude-3.5 表现最强,平均得分 46.26/36.97 。MMedIns-Llama 3 表现最佳,平均 BLEU-1/ROUGE-1 分数为 46.90/34.54。
- 命名实体识别(NER):GPT-4 表现稳健,平均 F1 分数为 59.52。MMedIns-Llama 3 表现突出,平均 F1 分数为 79.29。
- 诊断、治疗规划和临床结果预测:开源 LLMs 在这些任务上不如闭源 LLMs 。MMedIns-Llama 3 在治疗规划、诊断和临床结果预测上准确率分别达 98.47、97.53 和 63.35 。
- 文本分类:GPT-4 和 Claude-3.5 表现良好,GPT-4 宏观 F1 分数为 68.06。MMedIns-Llama 3 表现最优,宏观 Precision、Recall 和 F1 分数分别为 89.59、85.58 和 86.66。
- 事实验证:InternLM 2 在 PubMedQA 答案验证中准确率最高,为 99.23。MMedIns-Llama 3 在多项验证任务中表现出色,在 EMBS 基准测试中略逊于 GPT-4 和 Llama 3。
- 自然语言推理(NLI):InternLM 2 在开源 LLMs 中得分最高,为 84.67 。MMedIns-Llama 3 在判别任务中准确率最高,为 86.71,在生成任务中 BLEU/ROUGE 分数为 23.52/25.17 。
研究结论和讨论部分指出,该研究构建了 MedS-Bench 基准和 MedS-Ins 数据集,推动了医学 LLMs 的发展。但研究存在局限,如 MedS-Bench 任务覆盖不全面,MedS-Ins 数据集也有待完善,模型未经过广泛临床验证等。未来研究方向包括拓展基准测试任务、完善数据集、纳入更多语言以及开展临床验证等。这项研究为医学大语言模型的发展提供了重要参考,为后续研究指明了方向,在医学人工智能领域具有重要意义,有望推动医学领域的智能化发展,为临床实践带来更多便利和创新。