公平性调解器:中和刻板印象关联,以减少大型语言模型中的偏见
《Proceedings of the ACM on Software Engineering》:Fairness Mediator: Neutralize Stereotype Associations to Mitigate Bias in Large Language Models
【字体:
大
中
小
】
时间:2025年11月07日
来源:Proceedings of the ACM on Software Engineering
编辑推荐:
大语言模型(LLMs)虽在多样化应用中表现优异,却无意间吸收训练数据中的虚假关联,导致偏见性概念与社会群体间的错误关联,加剧社会不公。现有方法因与下游社会偏见对齐不足而效果有限。本文提出FairMed框架,通过探测层激活中的偏见关联并设计对抗性去偏见中继器,在MLP层进行干预以均等化关联概率。实验表明,在九种受保护属性上,FairMed平均偏见减少率达84.42
摘要
大型语言模型(LLMs)在各种应用中表现出色,但它们无意中吸收了训练数据中的虚假相关性,导致有偏概念与特定社会群体之间存在刻板印象的关联。这些关联会加剧甚至放大有害的社会偏见,引发了对公平性的重大担忧,而公平性是软件工程中的一个关键问题。为了减轻这种偏见,以往的研究尝试在推理过程中将模型嵌入投影到无偏空间中。然而,由于这些方法与下游社会偏见的对齐度较低,其效果有限。我们受到以下观察的启发:LLMs中的概念认知主要通过线性关联记忆机制来表示,其中关键-值映射发生在MLP层中。我们认为,有偏概念和社会群体类似地被编码为实体(键)和信息(值)对,可以通过这种编码方式来促进更公平的关联。为此,我们提出了Fairness Mediator(FairMed)这一有效且高效的偏见缓解框架,用于消除刻板印象关联。该框架包含两个主要组件:一个刻板印象关联探测器和一个对抗性去偏见器。探测器通过使用围绕有偏概念(键)设计的提示来捕获MLP层激活中的刻板印象关联,从而检测出社会群体(值)的生成概率。随后,对抗性去偏见器在推理过程中干预MLP层的激活,以平衡不同社会群体之间的关联概率。在九个受保护属性上的广泛实验表明,FairMed在效果上显著优于现有方法,平均偏见降低了84.42%
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号