编辑推荐:
当前,大型语言模型(LLMs)在医疗领域应用渐广,但引用可靠性存疑。研究人员开展 “评估 LLMs 引用医学参考文献情况” 的研究,用 SourceCheckup 框架评估 7 种 LLMs,发现 50%-90% 的 LLM 回复缺乏充分引用支持。该研究为 LLMs 医学应用提供关键参考 。
在当今数字化时代,大型语言模型(Large Language Models,LLMs)如同科技领域的 “超级大脑”,逐渐渗透到各个行业,医疗领域也不例外。它们能快速处理海量信息,在医学考试中甚至能超越临床医生的表现,还被用于心理健康治疗、疾病诊断辅助等方面。然而,LLMs 存在一个严重问题 —— 容易产生幻觉,即生成没有任何来源支持的陈述。在医疗这个关乎生命健康的领域,这一问题可能会导致患者接受错误的建议,损害患者的利益,同时也极大地影响了临床医生对 LLMs 的信任,阻碍了其在临床实践中的广泛应用。
此外,从监管层面来看,美国食品药品监督管理局(FDA)多次呼吁对用于决策支持的 LLMs 进行监管。准确评估 LLMs 能否可靠地传达现有的、值得信赖的医学知识,对于建立未来医学 LLMs 的监管框架至关重要。在这样的背景下,来自斯坦福大学(Stanford University)等机构的研究人员开展了一项重要研究,相关成果发表在《Nature Communications》上。
为了深入探究 LLMs 在医学领域引用参考文献的可靠性问题,研究人员构建了一个名为 SourceCheckup 的自动化评估框架。该框架主要包含四个模块:问题生成、LLM 问答、陈述和 URL 源解析、源验证。在问题生成模块,研究人员收集了来自 Reddit 的 r/AskDocs 板块的 400 个真实医疗问题,同时利用 GPT-4o 基于梅奥诊所(MayoClinic)的参考文本生成 400 个问题,组成 800 个问题的数据集。随后,用这些问题向 7 种顶尖的 LLMs 提问,包括 GPT-4o(RAG 和 API)、Claude v2.1、Mistral Medium、Gemini(RAG 和 API)等,并要求它们提供答案及支持答案的结构化来源列表。接着,使用 GPT-4o 将 LLMs 的回复解析成可单独验证的陈述,下载每个回复中的 URL 源内容,并进行预处理。最后,通过让 GPT-4o 判断每个陈述是否能从至少一个提供的源中得到支持,来完成源验证过程。
研究结果如下:
- 问题生成和回复解析:医学专家验证生成的问题与参考文档高度契合,且都可回答;在陈述解析方面,大部分解析出的陈述都正确包含在完整回复中。
- 源验证:Source Verification 模型在判断源是否支持陈述方面,表现与医学专家相当,与专家共识的一致性达到 88.7%,而医生之间的平均一致性为 86.1%。
- GPT-4o 作为评估骨干模型的偏差评估:Claude Sonnet 3.5 与人类专家共识的一致性为 87.0%,与 GPT-4o 在源验证决策上的一致性达 90.1%。这表明评估流程对 GPT-4o 无偏向,且开源模型 Llama 3.1 70B 在引用验证任务上与专家共识的一致性为 79.3%,暂不如顶级专有模型。
- LLMs 中源真实性评估:在提供引用方面,GPT-4o(RAG)表现最佳,但回复级别的支持率仅 55%。Gemini Ultra 1.0(RAG)的回复中,只有 34.5% 能得到检索参考文献的完全支持。其他 API 端点模型的表现普遍较差,开源模型 Llama-2-70b 和 Meditron-7b 甚至难以生成引用 URL。此外,研究发现问题来源显著影响 LLMs 提供支持源的能力,如 GPT-4o(RAG)对来自梅奥诊所问题的回复级支持率接近 80%,对 Reddit r/AskDocs 问题的支持率则降至 30% 左右。
- 额外验证:在 HealthSearchQA 数据集上的评估结果与之前类似,进一步表明 LLMs 在处理开放式问题时,难以提供可靠的引用。在端到端的全人类评估中,人工临床医生和 SourceCheckup 对 GPT-4o w/ RAG 的评估结果相似,都显示前沿的 RAG 模型在许多医学问题上无法准确反映来源。
- URL 分析:LLMs 生成的 URL 主要来自健康信息网站,如mayoclinic.com、nih.gov 等,且大多来自美国网站,付费墙或已失效网页的 URL 比例较低。
- 编辑模型回复以提高陈述相关性:SourceCleanup 代理对 GPT-4o(RAG)、GPT-4o(API)和 Claude v2.1(API)中不支持的陈述进行处理,能有效删除或修改这些陈述,使修改后的陈述大多能得到源的支持。
研究结论和讨论部分指出,该研究通过医学专家验证了自动化医学源验证的可行性,其自动化框架有助于快速开发问答数据集,减少手动注释的需求。同时,研究结果揭示了当前 LLMs 在医学应用中的重大缺陷,强调模型应进行训练或微调以实现准确的源验证。此外,研究还发现模型对 Reddit 问题的回复支持率较低,可能与问题的开放性、多样性以及模型的推测性有关。并且,现有法律保护和监管框架可能不适用于 LLMs,评估 LLMs 传达医学知识的可靠性对未来监管框架的制定意义重大。虽然该研究存在一些局限性,如自动化流程可能产生误差、源验证任务存在模糊性等,但总体而言,为后续研究指明了方向,对推动 LLMs 在医学领域的安全、可靠应用具有重要意义。