-
生物通官微
陪你抓住生命科技
跳动的脉搏
“我们”和“他们”的偏见也困扰着人工智能
【字体: 大 中 小 】 时间:2024年12月17日 来源:AAAS
编辑推荐:
一组科学家的一项新研究发现,人工智能系统也容易产生社会身份偏见,揭示出超越性别、种族或宗教的基本群体偏见。
长期以来的研究表明,人类容易受到“社会身份偏见”的影响——偏爱自己的群体,无论是政党、宗教还是种族,并贬低“外围群体”。一组科学家的一项新研究发现,人工智能系统也容易产生同样类型的偏见,揭示了超越性别、种族或宗教的基本群体偏见。
“像ChatGPT这样的人工智能系统会产生与人类类似的‘我们对他们’的偏见——对他们认为的‘内部群体’表现出偏爱,而对‘外部群体’表现出消极,”纽约大学博士后研究员、该研究的作者之一史蒂夫·拉特杰(Steve Rathje)解释说。该研究发表在《自然计算科学》(Nature Computational Science)杂志上。“这反映了一种导致社会分裂和冲突的基本人类倾向。”
但这项由剑桥大学(University of Cambridge)科学家共同进行的研究也提供了一些积极的消息:通过仔细选择用于训练这些系统的数据,可以减少人工智能的偏见。
该论文的作者之一、剑桥大学(University of Cambridge)博士生胡天成(Tiancheng Hu)表示:“随着人工智能越来越融入我们的日常生活,理解并解决这些偏见对于防止它们扩大现有的社会鸿沟至关重要。”
《自然计算科学》的工作考虑了数十种大型语言模型(llm),包括基本模型,如Llama,以及更高级的指令微调模型,包括支持ChatGPT的GPT-4。
为了评估每种语言模型的社会认同偏差,研究人员用“我们是”(内群体)和“他们是”(外群体)提示生成了总共2000个句子,这两个句子都与“我们对他们”的动态相关,然后让模型完成这些句子。研究小组使用了常用的分析工具来判断句子是“积极的”、“消极的”还是“中性的”。
在几乎所有的情况下,“我们是”提示得到更多的肯定句,而“他们是”提示得到更多的否定句。更具体地说,内部群体(相对于外部群体)的句子有93%的可能性是积极的,这表明了内部群体团结的一般模式。相比之下,外群体的句子有115%的可能性是负面的,这表明强烈的外群体敌意。
积极句的一个例子是“我们是一群有才华的年轻人,正在走向下一个阶段”,而否定句是“他们就像过去的一棵有病的、毁容的树。”“我们生活在这样一个时代,社会各阶层都在寻找新的方式来思考和实践人际关系”,这是一个中性句子的例子。
然后,研究人员试图确定这些结果是否可以通过改变法学硕士的训练方式来改变。
为了做到这一点,他们用Twitter(现在是X)的党派社交媒体数据“微调”了法学硕士课程,发现群体内团结和群体外敌意都有显著增加。相反,当他们在微调之前从相同的社交媒体数据中过滤掉表达群体内偏爱和群体外敌意的句子时,他们可以有效地减少这些极化效应,这表明对训练数据进行相对较小但有针对性的更改可以对模型行为产生实质性影响。
换句话说,研究人员发现,通过仔细管理他们的培训数据,法学硕士可以或多或少地产生偏见。
作者Yara Kyrychenko指出:“即使是相对简单的数据管理,也能有效地降低群体内团结和群体外敌意的水平,这为改善人工智能的开发和培训提供了有希望的方向。”Yara Kyrychenko曾是纽约大学数学和心理学本科学生和研究员,现在是剑桥大学的博士盖茨学者。“有趣的是,从训练数据中去除内部群体的团结也减少了外部群体的敌意,强调了内部群体在外部群体歧视中的作用。”
这项研究的其他作者是剑桥大学自然语言处理教授奈杰尔·科利尔(Nigel Collier)、剑桥大学社会心理学教授桑德·范德林登(Sander van der Linden)和伦敦国王学院心理学和安全助理教授乔恩·鲁森贝克(Jon Roozenbeek)。
知名企业招聘