检测链机制实现了强大且高效的越狱防御

《Neural Networks》:Chain-of-Detection Enables Robust and Efficient Jailbreak Defense

【字体: 时间:2025年11月18日 来源:Neural Networks 6.3

编辑推荐:

  针对大语言模型监禁攻击的高效防御,提出链式检测机制CoD,通过查询侧引导有害搜索快速定位威胁,结合响应侧总结与多选评估实现双重防护,有效降低检测开销并提升复杂攻击拦截能力。

  
吴婷婷|张浩
哈尔滨工程大学,中国黑龙江省哈尔滨市南通街145号,邮编150001

摘要

虽然将大型语言模型(LLMs)与人类偏好对齐可以防止不希望的输出,但最近的研究表明,越狱提示可以轻松绕过这些保护措施,从而生成被禁止的内容。为了应对这些攻击,现有方法通常优化LLMs的解码过程或操纵其输入或输出以获得安全响应。然而,前者的可扩展性受到其复杂性的限制,往往需要重复生成或广泛的重新训练。相比之下,尽管后者的设计较为简单,但它们在面对日益复杂的攻击时却显得力不从心。此外,大多数方法无法在评估危害性之前拦截恶意查询,这增加了相当大的开销。为此,我们提出了一种高效的链式内容检测CoD)机制,以抵御不断演变的越狱攻击。具体来说,我们的方法首先采用查询端检测来拦截常见的越狱攻击,使用引导式有害搜索快速识别并阻止恶意意图。对于那些逃避查询端检测的更复杂攻击,我们利用LLMs对潜在有害响应进行深度推理,从而在响应端发现有害查询,实现全面防御。在包含多种攻击的多个开源和闭源LLM的数据集上的实验验证证实了我们的方法的有效性。

引言

尽管大型语言模型(LLMs)在各种任务中表现出色(Ji等人,2023年;Miao等人,2023年),但它们在庞大的互联网文本语料库上的预训练可能会导致生成与人类偏好相冲突的内容(Gehman等人,2020年;Lin等人,2021年)。已经提出了许多对齐技术(Ouyang等人,2022年;Scheurer等人,2023年;Zhang等人,2023a年)来减轻LLMs生成有毒内容的问题,使其行为更符合人类期望。然而,由于模型能力和安全目标之间的冲突,以及安全训练无法跟上LLMs的快速扩展(Wei等人,2023a年),这些方法存在固有的挑战。这些因素使得保护措施容易受到越狱攻击的影响,这是一种常见的对抗性攻击形式(Cheng等人,2025年;Liu等人,2024c年;Sutton等人,2024年;Wang等人,2024年),其目的是暴露并允许生成不安全的输出(Shayegani等人,2023年)。
为了应对越狱漏洞,现有方法可以根据优化目标分为模型级数据级防御。模型级防御试图通过改进LLMs的解码过程来提高拒绝攻击的可能性。然而,这类工作往往复杂,需要重复的前向生成和反向回溯(Li等人,2024b年)或额外的微调(Xu等人,2024b年)来防止有害内容的生成。这会导致运行时开销增加四倍以上,或者导致过高的训练成本,影响防御的可扩展性。数据级防御相对轻量,旨在操纵LLMs的输入和输出以检测或破坏越狱攻击。这些策略包括输入扰动(Kumar等人,2023年;Robey等人,2023年)或预处理(Jain等人,2023年),输入或输出检测(Cao等人,2023年;Jain等人,2023年;Xie等人,2024年),增强的用户提示演示(Wei等人,2023c年),以及更安全的系统提示设计(Wu等人,2023a年;Zhou等人,2024b年)。然而,它们的简单设计难以跟上快速发展的越狱攻击(Deng等人,2024年;Jiang等人,2024年;Zhang等人,2024年),导致防御性能不佳。此外,大多数方法依赖于生成后的响应评估,这相对耗时,并可能引入不可忽视的开销。例如,Erase-and-check(Kumar等人,2023年)由于重复的令牌操作而引入了指数级的复杂性,导致运行时间比无防御时增加了100倍(Wei等人,2023c年)。
为了解决这些问题,我们开发了链式内容检测CoD),这是一种针对各种越狱攻击的强大且高效的防御机制。如图1(a)所示,CoD在LLMs的查询端和响应端都采用了一系列中间检测步骤。在查询端,我们实施引导式有害搜索来揭示隐藏在冗长越狱提示中的有害内容,使用top-I排名(操作①,其中Op代表操作)在小子空间中高效定位潜在威胁。然后我们应用Soft-PPL处理(操作③)来移除隐藏在无意义提示中的攻击,接着进行基于LLM的多项选择评估(操作④),以更清晰地判断查询的有害性。这些组件提高了检测准确性,减少了LLM响应的需求,并降低了防御开销。对于难以处理或隐蔽的越狱攻击(例如图1(c)),它们会触发有害响应(操作⑤),CoD还包括响应端检测。我们利用LLM摘要(操作⑥)来指导模型识别响应中的有害内容。鉴于LLMs在处理长文本方面的脆弱性(Shayegani等人,2023年),简洁的摘要文本使得在响应端进行更准确的多项选择评估成为可能。总之,本文的主要贡献如下:
  • 我们提出了CoD,这是一种多功能且强大的方法,能够以高效的方式防御难以处理的越狱攻击。
  • 我们在查询端设计了引导式有害搜索,以快速拦截大多数攻击,并使用响应摘要来鼓励LLMs进行更深入的推理,从而检测到更多难以处理的攻击。
  • 我们在五种越狱攻击、两个有害基准测试、两个自适应攻击和一个良性基准测试上进行了广泛的实验,证明了CoD的有效性、多功能性、鲁棒性、最小的过度防御性和高效率。
  • 相关工作

    相关工作

    越狱攻击 越狱提示旨在在冗长的提示内容中掩盖恶意意图。当前针对LLMs的越狱攻击可以分为两大类:一种是自动生成有害提示以暴露语言模型中的漏洞(Deng等人,2024年;Li, Wang, Cheng, Zhou, & Hsieh, Li, Zhou, Zhu, Yao, Liu, & Han;Yu等人,2023年;Zhang等人,2024年);另一种是基于优化的方法(Chao等人,2023年;Liu等人,2024b年;Zou等人,2023年)。前者自动生成有害提示以暴露语言模型中的漏洞。

    方法

    我们的防御机制可以对齐后的LLMs进行黑盒访问,无需访问模型的参数即可拒绝常见的有害查询。算法1展示了CoD的全面实现过程,包括在查询端(第3.1节)和响应端(第3.2节)执行链式检测。值得注意的是,我们在这里使用了LLMs中的默认系统提示,省略了Prsys表示。

    实验

    我们评估了CoD在多种LLMs上对抗各种攻击的有效性和通用性(第4.2节),随后分析了其对两种自适应攻击的鲁棒性(第4.3节)。接下来,我们评估了该方法对LLM性能的影响(第4.4节)并检查了时间效率(第4.5节)。最后,我们进行了消融研究,以调查每个CoD组件的贡献(第4.6节)并讨论了超参数(第4.7节)。

    结论

    我们提出了CoD,这是一种针对多种越狱攻击的防御策略,它在效率与对日益复杂威胁的强大保护之间取得了平衡。CoD采用检测链来捕获各种恶意查询,并结合了高效的操作,例如查询端引导式有害搜索,可以快速识别和标记恶意意图,减少响应生成的需求并降低开销。代码将在一个公开可访问的仓库中发布。

    CRediT作者贡献声明

    吴婷婷:撰写——原始草稿、软件、方法论、概念化。张浩:撰写——审阅与编辑、方法论、资金获取。

    利益冲突声明

    作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普
    • 急聘职位
    • 高薪职位

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号