公平性调解器：中和刻板印象关联，以减少大型语言模型中的偏见

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Proceedings of the ACM on Software Engineering》：Fairness Mediator: Neutralize Stereotype Associations to Mitigate Bias in Large Language Models

【字体：大中小】 时间：2025年11月07日 来源：Proceedings of the ACM on Software Engineering

编辑推荐：

　　大语言模型（LLMs）虽在多样化应用中表现优异，却无意间吸收训练数据中的虚假关联，导致偏见性概念与社会群体间的错误关联，加剧社会不公。现有方法因与下游社会偏见对齐不足而效果有限。本文提出FairMed框架，通过探测层激活中的偏见关联并设计对抗性去偏见中继器，在MLP层进行干预以均等化关联概率。实验表明，在九种受保护属性上，FairMed平均偏见减少率达84.42

摘要

大型语言模型（LLMs）在各种应用中表现出色，但它们无意中吸收了训练数据中的虚假相关性，导致有偏概念与特定社会群体之间存在刻板印象的关联。这些关联会加剧甚至放大有害的社会偏见，引发了对公平性的重大担忧，而公平性是软件工程中的一个关键问题。为了减轻这种偏见，以往的研究尝试在推理过程中将模型嵌入投影到无偏空间中。然而，由于这些方法与下游社会偏见的对齐度较低，其效果有限。我们受到以下观察的启发：LLMs中的概念认知主要通过线性关联记忆机制来表示，其中关键-值映射发生在MLP层中。我们认为，有偏概念和社会群体类似地被编码为实体（键）和信息（值）对，可以通过这种编码方式来促进更公平的关联。为此，我们提出了Fairness Mediator（FairMed）这一有效且高效的偏见缓解框架，用于消除刻板印象关联。该框架包含两个主要组件：一个刻板印象关联探测器和一个对抗性去偏见器。探测器通过使用围绕有偏概念（键）设计的提示来捕获MLP层激活中的刻板印象关联，从而检测出社会群体（值）的生成概率。随后，对抗性去偏见器在推理过程中干预MLP层的激活，以平衡不同社会群体之间的关联概率。在九个受保护属性上的广泛实验表明，FairMed在效果上显著优于现有方法，平均偏见降低了84.42%

可用格式

您可以通过以下格式查看完整内容：

PDF

热点排行

新闻专题

联系信箱：

粤ICP备09063491号