Benchmarking large language models for biomedical natural language processing applications and recommendations:大语言模型在生物医学自然语言处理中的全面评估与应用指南
编辑推荐:
为解决生物医学文献增长带来的知识整理难题,研究人员开展了大语言模型(LLMs)在生物医学自然语言处理(BioNLP)应用的研究。结果显示,传统微调在多数任务中表现更优,LLMs 存在信息缺失等问题。该研究为 LLMs 在 BioNLP 的应用提供了实践见解12。
在生物医学领域,知识的快速增长带来了诸多挑战。每天,像 PubMed 这样的数据库新增约 5000 篇文章,截至 2024 年 3 月已累计超 3600 万篇;在 COVID-19 相关领域,每月新增约 10000 篇文章,总数超 40 万篇。而且,生物医学语言存在诸多模糊之处,同一实体可能有多种表述,如 “Long COVID” 就有 763 种不同说法;同一术语也可能指代不同实体,例如 “AP2” ,既可以指基因,也能表示化学物质或细胞系。这些问题使得手动整理和综合知识变得极为困难。为了应对这些挑战,生物医学自然语言处理(BioNLP)技术应运而生,旨在辅助人工进行知识整理和发现。而随着大语言模型(LLMs)在通用领域取得显著进展,其在 BioNLP 任务中的有效性备受关注,不过,由于缺乏全面的基准测试和实用指南,LLMs 在 BioNLP 中的实际表现尚不明确。在此背景下,耶鲁大学医学院等机构的研究人员开展了相关研究,成果发表于《Nature Communications》。该研究对理解 LLMs 在 BioNLP 中的作用、推动生物医学知识的自动化处理具有重要意义。
研究人员主要运用了以下关键技术方法:首先,选择了 12 个来自 BioNLP 不同应用的数据集,涵盖命名实体识别、关系提取、多标签文档分类、问答、文本摘要和文本简化等任务。针对这些任务,以传统微调的 BERT 或 BART 模型为基线,评估了 4 种 LLMs(GPT-3.5、GPT-4、LLaMA 2 和 PMC LLaMA)在零样本、少样本和微调设置下的性能。此外,对 LLMs 生成的大量样本输出进行了人工验证,分析错误类型。还通过计算输入和输出令牌数量来进行成本分析,以探究性能与成本之间的关系。
研究结果主要包含以下几个方面:
- 定量评估:在大多数 BioNLP 任务中,传统微调的 SOTA 方法表现优于零样本和少样本的 LLMs。例如,在 12 个基准测试中,SOTA 方法的宏观平均得分比表现最佳的零样本和少样本 LLMs 高出约 15%(0.65 vs. 0.51) ,在关系提取等信息提取任务中更是高出 40% 以上(0.79 vs. 0.33)。不过,在推理相关的医学问答任务中,闭源的 GPT-3.5 和 GPT-4 展现出更好的零样本和少样本性能,超越了 SOTA 微调方法。在生成相关任务如文本摘要和简化中,它们也具有一定竞争力,在文档级分类等语义理解任务中表现出潜力。LLMs 中,GPT-4 整体性能最高,但成本比 GPT-3.5 高 60 - 100 倍。而开源的 LLaMA 2 在零样本和少样本设置下性能较弱,需微调缩小差距345。
- 定性评估:在命名实体识别的错误分析中,发现 LLMs 在零样本和少样本设置下,正确预测的实体数量有限,存在较多错误、缺失和边界问题。在对不一致性、缺失信息和幻觉的评估中,发现 LLaMA 2 在零样本设置下问题较为突出,不过增加一个样本或进行微调可显著减少这些问题。在文本摘要的准确性、完整性和可读性评估中,GPT-3.5 和 GPT-4 的准确性和可读性较高,但完整性低于微调的 BART 模型,LLaMA 2 则在各方面表现均较差678。
- 讨论与建议:研究表明,SOTA 微调方法在多数 BioNLP 应用中更具优势,尤其在信息提取和分类任务中。闭源 LLMs 在医学问答、文本摘要和简化以及文档级分类等任务中有一定潜力。开源 LLMs 零样本和少样本能力较弱,需微调提升性能,且持续预训练的生物医学特定领域 LLMs(如 PMC LLaMA)性能提升不显著。同时,文本摘要和简化任务的自动评估指标与人工评估存在差异,使用 LLMs 时性能与成本存在权衡。基于这些发现,研究人员为下游用户提供了在 BioNLP 应用中使用 LLMs 的建议,如在推理相关的问答任务中,推荐使用 GPT-4 等闭源 LLMs;在文本简化和摘要任务中,可尝试使用闭源 LLMs,但需注意其完整性问题;在文档级分类任务中,闭源 LLMs 也可作为选择,但开源 LLMs 需确保输入上下文长度合适。此外,研究人员还指出目前 BioNLP 的数据和评估范式可能对 LLMs 不公平,需开发新的评估数据集和方法,同时要重视解决 LLMs 产生的不一致性、缺失和幻觉等问题91011。
综上所述,该研究全面评估了 LLMs 在 BioNLP 应用中的性能,揭示了其优势与不足,为 BioNLP 下游用户提供了实用的建议,也为进一步提升 LLMs 在 BioNLP 中的应用性能指明了方向。研究结果对于推动生物医学领域的知识自动化处理、优化语言模型在该领域的应用具有重要意义,同时也为后续研究如何改进评估方法、提升模型性能等提供了参考依据 。