警惕!大语言模型 “暗藏玄机”:视觉语言模型在肿瘤学中的提示注入攻击隐患

【字体: 时间:2025年02月06日 来源:Nature Communications 14.7

编辑推荐:

  随着大语言模型(LLMs)和视觉语言模型(VLMs)在医疗领域的应用前景渐显,其安全性备受关注。研究人员针对 VLMs 开展提示注入攻击研究,发现当前应用于医疗任务的 VLMs 存在安全漏洞,易受攻击输出有害信息,该研究为医疗 AI 安全敲响警钟。

  在科技飞速发展的当下,大语言模型(LLMs)凭借其强大的语言处理能力,迅速渗透到各个领域,在医疗领域也展现出巨大潜力,有望革新医疗模式,比如减轻医疗文档记录负担、推动循证医学发展等。与此同时,融合了图像和文本处理能力的视觉语言模型(VLMs)也崭露头角,它能解读医学影像和文本,进一步拓展了 LLMs 在医疗中的应用范围,像是辅助病理图像解读、超声心动图分析等。
然而,新技术的发展总是伴随着新的问题。就像在平静的湖面投下一颗石子,打破了原有的宁静。随着 LLMs 和 VLMs 在医疗场景中的应用逐渐广泛,其安全性问题开始浮出水面。提示注入攻击这一潜在威胁,此前在其他领域已有探讨,但在医疗领域却鲜有人研究。医疗数据关乎患者生命健康,且 VLMs 处理的医疗数据可能在其训练数据中代表性不足,导致准确性受限。一旦这些模型在医疗诊断中受到攻击,后果不堪设想,可能引发致命错误。因此,研究 VLMs 在医疗领域的提示注入攻击问题迫在眉睫。

来自德国德累斯顿工业大学 Else Kroener Fresenius 数字健康中心等多个机构的研究人员,开展了一项针对 VLMs 在肿瘤学中提示注入攻击的研究。他们的研究成果发表在《Nature Communications》上,为我们揭示了这一问题的严重性。

在研究过程中,研究人员运用了多种技术方法。他们收集了 18 例经组织学证实的恶性病变患者的医学影像数据,这些数据涵盖了肝脏 CT、MRI、超声影像,黑色素瘤照片,胃肠道癌内镜影像以及腺癌苏木精 - 伊红(HE)染色影像等多种模态。同时,选择了 Claude - 3 Opus、Claude - 3.5 Sonnet、Gemini 1.5、GPT - 4o 和 Reka Core 等多个当前先进的 VLMs 进行实验。通过在模型输入中注入不同类型的提示,如文本提示、视觉提示和延迟视觉提示,并改变提示的对比度和字体大小,观察模型的输出结果。

研究结果主要分为以下几个方面:

  1. 视觉语言模型是恶性病变的模态无关检测器:研究人员先评估了模型的器官检测率,只有器官检测率至少达到 50% 的 VLMs 才被纳入后续实验。Claude - 3 Opus、Claude - 3.5 Sonnet、GPT - 4o 和 Reka Core 达到了这一标准。这表明这些模型在一定程度上具备识别医学影像中器官的能力,但也存在部分模型会误判一些器官存在的情况,不过这对后续实验影响不大。
  2. 图像中的隐藏指令可绕过防护并改变 VLM 输出:研究人员通过量化模型检测病变的能力(病变漏检率,LMR)和攻击成功率(ASR,即通过提示注入翻转模型输出的比例)来评估攻击效果。结果发现,所有被研究的 VLMs 在注入提示后,检测病变的能力都受到显著影响。例如,Claude - 3 在注入提示后,LMR 从 35% 上升到 70%,ASR 达到 33%;GPT - 4o 的 LMR 更是从 22% 飙升到 89%,ASR 高达 67%。不同模型和提示注入策略对攻击效果影响不同,文本提示和图像提示在大多数情况下危害较大,而延迟视觉提示总体危害较小。同时,低对比度和小字体等隐藏策略对 GPT - 4o 和 Reka Core 的危害与默认设置相似,对 Claude 模型则有不同影响。
  3. 提示注入具有模态无关性且难以缓解:研究人员进一步探究了不同医学成像模态下 VLMs 对提示注入的敏感性,发现所有研究模型在各种成像模态下都易受攻击,且攻击成功率在不同模态间差异不大,仅超声和 CT 之间存在显著差异。这说明提示注入攻击具有模态无关性,可在不同成像模态下实施。此外,研究人员尝试了伦理提示工程和代理系统等策略来缓解攻击,结果显示,这些策略对 Claude - 3、GPT - 4o 和 Reka - Core 均未成功,仅伦理提示工程对 Claude - 3.5 有显著效果,使其对提示注入的 vulnerability 从 64.8% 降至 27.8% 。

研究结论和讨论部分指出,该研究首次证明了针对先进 VLMs 的细微提示注入攻击会导致有害输出,且这些攻击可在不访问模型架构的情况下进行,属于黑盒攻击。潜在攻击者包括网络犯罪分子、勒索者、恶意内部人员以及参与网络战的政治行为者等。他们只需获取用户提示,就可能在数据进入医院安全基础设施前或在数据传输至 VLM - 提供商的过程中实施攻击。由于提示注入利用了 LLMs 的基本输入机制,这可能是 LLMs / VLMs 的一个根本性问题,难以轻易解决。虽然目前有一些技术改进和防护措施,但都无法有效抵御此类攻击。不过,像 Claude - 3.5 经过多年的对齐研究,在一定程度上能通过伦理提示工程缓解攻击,这为未来解决这一问题提供了方向,如采用混合对齐训练,在模型训练中优先考虑伦理输出和人类偏好,同时加强提示结构的规范和约束。

这项研究意义重大,它为医疗领域广泛应用 LLMs 和 VLMs 敲响了安全警钟,提醒相关利益者在拥抱新技术的同时,必须重视并积极应对安全威胁。在将这些模型批准为医疗设备之前,应开发新的方法来增强系统对各种对抗攻击的抵抗力,例如让人类专家参与关键决策的审核,以确保患者安全和医疗服务质量。这一研究成果也为后续的医疗 AI 安全研究奠定了基础,促使研究人员深入探索更有效的防御策略,保障医疗人工智能的健康发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号