你能变得有多“有毒”?针对大型语言模型的基于搜索的毒性检测方法

《IEEE Transactions on Software Engineering》:How Toxic Can You Get? Search-Based Toxicity Testing for Large Language Models

【字体: 时间:2025年12月01日 来源:IEEE Transactions on Software Engineering 5.6

编辑推荐:

  语言模型可能因数据偏见产生有害内容,传统对齐方法效果有限。本文提出EvoTox自动化测试框架,通过迭代进化策略和两模型对抗实现毒性量化评估,在五款大模型(7B-671B参数)上验证其有效性,检测毒性效果比随机搜索高1.0,比对抗攻击高0.99,平均成本增加22%-35%。

  

摘要:

语言是传播刻板印象和歧视的深层根源。如今,大型语言模型(LLMs)已经渗透到我们的日常生活中,但当它们容易生成有害内容时,可能会造成严重的后果。解决这一问题的传统方法是对其进行训练以使其行为符合道德标准,然而这种方法只能部分缓解问题,并不能彻底解决问题。因此,即使在进行了训练调整之后,对LLMs进行测试以检测其是否仍存在与道德标准不符的偏差仍然至关重要。我们提出了EvoTox,这是一个自动化测试框架,用于评估LLMs产生有害内容的倾向,能够量化地衡量即使在进行了训练调整的情况下,LLMs仍可能被引导产生有害内容的可能性。该框架采用了一种迭代进化策略,利用两个LLMs之间的相互作用——被测试的系统(SUT)和提示生成器(Prompt Generator)来促使SUT产生更具攻击性的内容。毒性水平由基于现有毒性分类器的自动化工具进行评估。我们使用五个复杂度逐渐增加的LLMs(参数量从70亿到6710亿不等)进行了定量和定性的实证评估。定量评估比较了EvoTox四种不同版本与现有基线方法在成本效益方面的表现,这些基线方法包括随机搜索、精心策划的有害内容数据集以及对抗性攻击。定性评估则邀请人类评估者对生成内容的流畅性以及测试过程中收集到的响应的毒性进行评分。结果表明,EvoTox在检测毒性方面的有效性显著高于所选的基线方法(与随机搜索相比效果提升高达1.0,与对抗性攻击相比效果提升高达0.99)。此外,EvoTox的成本开销也相对较低(平均仅增加22%至35%)。本文还提供了LLMs产生有害内容的实例,这些内容可能被视为粗俗或具有攻击性...

引言

通过书面文字造成的社会伤害是一个长期存在且亟需解决的问题。语言确实能够重复传播具有攻击性的刻板印象,并增加歧视的风险[1]。随着大型语言模型(LLMs)作为内容生成工具的广泛使用,人们对其可能产生的有害内容(即所谓的有害内容)产生了新的担忧[2],这类内容通常表现为粗鲁、不尊重他人或不合理;这类内容很可能会让人退出讨论[3]。LLMs中的有害行为往往源于它们所训练的数据,而这些数据反映了社会中的偏见和刻板印象。目前主流的解决方法是过滤训练数据,通常采用手工制定的规则和启发式方法。此外,微调过程也会加入一些机制来抑制有害内容的生成[4]、[5]、[6]、[7]。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号