公平性调解器:中和刻板印象关联,以减少大型语言模型中的偏见

《Proceedings of the ACM on Software Engineering》:Fairness Mediator: Neutralize Stereotype Associations to Mitigate Bias in Large Language Models

【字体: 时间:2025年11月07日 来源:Proceedings of the ACM on Software Engineering

编辑推荐:

  大语言模型(LLMs)虽在多样化应用中表现优异,却无意间吸收训练数据中的虚假关联,导致偏见性概念与社会群体间的错误关联,加剧社会不公。现有方法因与下游社会偏见对齐不足而效果有限。本文提出FairMed框架,通过探测层激活中的偏见关联并设计对抗性去偏见中继器,在MLP层进行干预以均等化关联概率。实验表明,在九种受保护属性上,FairMed平均偏见减少率达84.42

  

摘要

大型语言模型(LLMs)在各种应用中表现出色,但它们无意中吸收了训练数据中的虚假相关性,导致有偏概念与特定社会群体之间存在刻板印象的关联。这些关联会加剧甚至放大有害的社会偏见,引发了对公平性的重大担忧,而公平性是软件工程中的一个关键问题。为了减轻这种偏见,以往的研究尝试在推理过程中将模型嵌入投影到无偏空间中。然而,由于这些方法与下游社会偏见的对齐度较低,其效果有限。我们受到以下观察的启发:LLMs中的概念认知主要通过线性关联记忆机制来表示,其中关键-值映射发生在MLP层中。我们认为,有偏概念和社会群体类似地被编码为实体(键)和信息(值)对,可以通过这种编码方式来促进更公平的关联。为此,我们提出了Fairness Mediator(FairMed)这一有效且高效的偏见缓解框架,用于消除刻板印象关联。该框架包含两个主要组件:一个刻板印象关联探测器和一个对抗性去偏见器。探测器通过使用围绕有偏概念(键)设计的提示来捕获MLP层激活中的刻板印象关联,从而检测出社会群体(值)的生成概率。随后,对抗性去偏见器在推理过程中干预MLP层的激活,以平衡不同社会群体之间的关联概率。在九个受保护属性上的广泛实验表明,FairMed在效果上显著优于现有方法,平均偏见降低了84.42%

可用格式

您可以通过以下格式查看完整内容:

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号