Med-VCD:通过视觉对比解码减轻医疗用大视野语言模型中的幻觉现象

《Computers in Biology and Medicine》:Med-VCD: Mitigating hallucination for medical large vision language models through visual contrastive decoding

【字体: 时间:2025年11月30日 来源:Computers in Biology and Medicine 6.3

编辑推荐:

  医疗视觉语言模型幻觉缓解策略研究,提出Med-VCD方法通过动态选择视觉相关token实现高效稀疏解码,在眼科、放射科和病理学三个领域八组数据集上验证,相比基线模型 factual accuracy提升13%,hallucination accuracy提高6%,同时降低计算开销。

  
扎赫拉·马赫达维(Zahra Mahdavi)| 扎赫拉·霍达卡拉米马格苏德(Zahra Khodakaramimaghsoud)| 胡曼·卡卢(Hooman Khaloo)| 西娜·巴赫尚德·塔莱沙尼(Sina Bakhshandeh Taleshani)| 埃尔凡·哈希米(Erfan Hashemi)| 贾瓦德·米尔扎普尔·卡莱巴尔(Javad Mirzapour Kaleybar)| 奥米德·内贾蒂·曼扎里(Omid Nejati Manzari)
美国中佛罗里达大学计算机科学系,奥兰多

摘要

大型视觉语言模型(LVLMs)在医疗应用中发挥着核心作用,例如医学视觉问答和影像报告生成。然而,这些模型仍然容易产生看似合理但实际上错误的幻觉输出。在自然图像领域,已经提出了一些解码策略来通过强化视觉证据来减轻幻觉现象,但大多数策略依赖于二次解码或回滚程序,这会显著降低推理速度。此外,现有的解决方案通常具有领域特异性,可能导致不同模态之间或生成内容与真实内容之间的不匹配。我们提出了Med-VCD,这是一种稀疏的视觉对比解码方法,可以在不增加二次解码时间开销的情况下减轻医学LVLM中的幻觉问题。Med-VCD采用了一种新颖的令牌稀疏化策略,能够实时选择具有视觉信息的令牌,在保留关键视觉内容的同时减少冗余,从而在效率和可靠性之间取得平衡。在八个医学数据集上的评估表明,与基线医学LVLM相比,Med-VCD将事实准确性平均提高了13%,并将幻觉准确性提高了6%。

引言

在过去几年中,大型视觉语言模型(LVLMs)取得了显著的成功[1]、[2]、[3]。它们通过适应不同的输入指令,促进了各种视觉和语言任务[4]、[5]、[6]。然而,LVLMs面临一个重大挑战:它们往往无法准确捕捉视觉内容,容易生成虚构的响应(例如,想象中的物体、错误的属性或不存在的关系),这种现象被称为幻觉[7]、[8]。在医疗应用中,这种幻觉对可靠性和安全性构成了严重威胁,因为生成报告中即使是微小的事实错误也可能具有重要的临床意义[9]、[10](见图1)。因此,在保持效率的同时提高事实准确性已成为医学LVLM部署的核心目标。
现有的幻觉缓解方法大致分为两类。第一类侧重于改进指令调优数据和重新训练LVLMs以抑制幻觉[7]、[8]、[11]、[12]。第二类是视觉对比解码(VCD)方法,旨在通过对比原始视觉输入和修改后视觉输入的logits来限制生成内容[13]、[14]、[15]、[16]。虽然微调可以提高性能,但在医学领域往往不切实际,因为高质量标记数据有限,且训练数据与实际应用数据之间存在领域差异[17]。基于VCD的方法通常依赖多轮解码和外部视觉定位工具[18],这会引入较大的计算开销并限制实时可用性[13]、[19]。这些限制凸显了需要一种更高效、更具领域适应性的策略来减少幻觉,同时保持医学LVLM的准确性和可靠性。
在这项研究中,我们介绍了Med-VCD——一种有效的即插即用方法,通过利用Med-LVLM中的视觉感知令牌稀疏性来减轻幻觉。基于实证发现,LVLM的注意力模式本质上是稀疏的,而传统的稀疏化方法会加剧幻觉,Med-VCD采用了一种创新的受限优化框架、基于稀疏性的视觉对比解码策略以及沉降注意力校准(SAC)来保持视觉保真度和效率。在三个幻觉基准测试和两种Med-LVLM架构上的广泛评估表明,Med-VCD不仅显著减少了幻觉,还提高了解码速度,显著优于现有的最先进方法。
本研究做出了几项重要贡献:
  • 我们从解码过程中令牌稀疏化的角度研究了幻觉减少问题,并提出了一种新的、有效的即插即用方法,将视觉感知增强和令牌稀疏性作为一个优化问题结合起来,实现了模型效率和保真度的双重提升。
  • 为了减少幻觉,我们提出了一种新的视觉感知令牌选择技术和基于稀疏性的VCD方法,避免了多轮解码,并使用嵌入生成对比logits。
  • 广泛的测试和评估表明,Med-VCD在医学领域的性能和解码速度上都明显优于当前的幻觉缓解技术。

医学领域的大规模视觉语言模型

视觉语言模型(VLMs)的发展受到了广泛关注,这得益于大型语言模型(LLMs)的成功[20],包括GPT-4[21]、LLaMA-2[22]和PaLM-2[23]。这一发展势头促进了通用领域应用的研究[3]、[24]、[25],从而产生了GPT-4V[21]、PaLM-E[26]、MiniGPT-4[27]、LLaVA[3]和InternVL[28]等框架。
然而,大规模视觉语言模型的发展仍然面临一些挑战

初步介绍

本研究探讨了一种通用的Med-LVLM,记为θ,它集成了视觉编码器、LLM解码器和视觉-文本对齐模块。视觉编码器处理输入图像v以生成视觉嵌入,这些嵌入随后通过使用线性投影层或Q-Former[51]等组件的对齐模块进行转换,以确保与文本查询x的兼容性。得到的多模态表示随后被传递给解码器。

实验

本节通过解决四个具体目标来评估Med-VCD的性能:评估Med-VCD相比基于解码和基于RAG的基线方法是否提高了Med-LVLM的事实准确性;量化每个提出组件的整体性能贡献;评估我们提出的方法在三个医学基准测试中缓解幻觉的有效性;验证Med-VCD是否增强了跨模态对齐和整体模型对齐。

结论

本文介绍了Med-VCD,这是一种旨在减轻Med-LVLM中视觉幻觉问题的视觉对比解码系统。我们首先深入分析了视觉不可感知的令牌稀疏化如何加剧模型输出中的幻觉现象。在此基础上,我们提出了一种视觉感知令牌选择程序,通过优先处理与输入视觉数据相关性更强的令牌来优化解码过程。此外,我们还提出了一种基于稀疏性的视觉

CRediT作者贡献声明

扎赫拉·马赫达维(Zahra Mahdavi):撰写 – 审稿与编辑、初稿撰写、可视化、验证、方法论、概念化。扎赫拉·霍达卡拉米马格苏德(Zahra Khodakaramimaghsoud):撰写 – 审稿与编辑、初稿撰写、软件开发、方法论、形式分析。胡曼·卡卢(Hooman Khaloo):初稿撰写、可视化、验证、概念化。西娜·巴赫尚德·塔莱沙尼(Sina Bakhshandeh Taleshani):撰写 – 审稿与编辑、调查、形式分析。埃尔凡·哈希米(Erfan Hashemi):撰写 – 审稿与编辑、初稿撰写。

伦理声明

本研究不需要伦理批准或伦理声明,因为它仅使用公开可用的数据集。研究中未涉及人类受试者或动物,所使用的数据已匿名化并通过开放渠道获取。因此,这项工作不需要伦理批准或知情同意。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号