大型语言模型预测人类社交决策能力的评估:进化心理学框架下的系统性比较研究

【字体: 时间:2025年09月04日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对大型语言模型(LLMs)预测人类社交决策的能力展开系统性评估。研究人员在进化心理学框架下,通过51个社会情境(9600次响应)比较了GPT-3.5、GPT-4与2104名人类参与者的决策差异,并进一步用GPT-4o验证了8种社会群体和亲属关系条件下的预测效果。研究发现LLMs在生命抉择中表现出与人类不同的风险偏好模式:人类对亲属关系和群体规模更敏感,而LLMs在金融领域与人类更接近但呈现相反的风险框架效应。该研究为构建心理版图灵测试提供了量化标准,对AI的社会决策对齐具有重要意义。

  

在人工智能飞速发展的今天,大型语言模型(LLMs)如ChatGPT已展现出惊人的语言理解和生成能力。然而,这些数字智能体是否真正理解人类社交决策的深层逻辑?它们能否通过心理学的"图灵测试"?这些问题在AI日益介入医疗诊断、法律咨询等社会决策领域的背景下显得尤为重要。传统研究多关注LLMs的技术性能,却忽视了其与人类社交理性的本质差异——这正是香港中文大学(深圳)应用心理学系XiaoTian WANG团队在《Scientific Reports》发表的最新研究要解决的核心问题。

人类社交决策是数百万年进化的产物,包含着对亲属关系、群体规模和社会框架的精细权衡。例如面对"救200人"还是"赌1/3概率救600人"的经典困境,人类选择会因"亲属在场"或"表述方式"产生戏剧性反转。这种"非理性"恰恰反映了进化形成的适应性机制。研究团队创造性地将LLMs视为"新物种",通过51个社会情境的系统性比对,揭示了AI与人类在社交决策中存在的根本性差异。

研究采用对照实验设计,通过GPT-3.5、GPT-4和GPT-4o预测2104名人类参与者在生命抉择、财产风险等场景中的选择。关键方法包括:1)构建18组正负框架对照的决策情境;2)设计亲属构成(1-6名亲属)和群体规模(6-6000人)的梯度变化;3)引入外星生命对照检验群体特异性;4)通过公平感知、年龄意识和目标设定等进化心理学范式评估决策前提。所有AI预测均通过独立会话收集100次响应以确保统计效力。

【风险偏好对社会和语言线索的响应】

在生命抉择中,人类展现出典型的框架效应:600人情境下负面框架的风险寻求率(65%)显著高于正面框架(42%)(Z=-2.75)。这种效应在6人亲属群体中消失,证实了进化假设——亲属关系会覆盖语言框架的影响。令人惊讶的是,GPT-3.5在小型群体中表现出与人类相反的模式,正面框架下风险寻求率反而更高(Z=2.56);GPT-4则对所有群体规模均保持风险规避,完全忽视社会语境差异。

【亲属与群体成员构成】

当群体包含1-2名亲属时,人类决策受框架显著影响(Z=-3.20),而纯亲属群体中该效应消失。GPT-4对此完全不敏感,在混合群体中保持固定风险规避(log OR<-2.54)。更具戏剧性的是,GPT-3.5在1名亲属情境中竟出现完全反向的框架效应(Z=2.81),暗示其可能将增益框架误读为风险信号。

【人类与外星生命对比】

人类对60亿同类的框架敏感度(Z=-2.94)显著高于外星生命,而GPT-4完全无视这一区别。这支持了"大群体决策依赖次级语言线索"的假说,也暴露了LLMs缺乏进化形成的群体认同机制。

【公共财产与个人投资】

在财务领域,人类风险规避随金额增大而增强(6000美元:Z=-3.65),符合前景理论。GPT-4虽保持整体规避倾向,但未能呈现金额梯度变化;GPT-3.5则在小额时反常风险寻求(Z=3.35)。

【决策前提的影响】

公平感知测试中,人类在6人群体中更倾向公平选项(Z=-5.24),而GPT-3.5竟偏好预先选择的不公平方案(Z=3.92)。年龄意识实验中,中年人类会区别对待"救父母"与"救子女",GPT-4则机械套用"救年轻"的统计规律。目标设定分析显示,人类会为亲属群体设置更高生存阈值(>2/3),LLMs则僵化遵循期望值原则。

验证研究使用GPT-4o测试8组框架对,发现其风险偏好与人类完全相反:小型群体更规避风险(Z=-3.81),大型群体反而风险寻求。在混合亲属群体中,GPT-4o再次出现反向框架效应(Z=7.48),凸显LLMs社会认知的系统性偏差。

这项研究首次在进化心理学框架下建立了评估LLMs社交决策的量化标准体系,揭示出三大关键发现:1)人类决策依赖亲属选择、群体规模等进化形成的启发式,而LLMs受训练数据统计规律支配;2)GPT-3.5存在系统性框架效应反转,GPT-4过度强调安全导致社会语境失敏;3)LLMs缺乏自我年龄意识、群体依赖目标设定等人类核心认知特征。这些发现对AI伦理具有深远启示——当前LLMs在医疗分诊、危机处置等社会决策中可能产生违背人类价值观的输出。研究提出的"心理图灵测试"标准(框架效应、亲属敏感度等8维度)为AI的社会对齐提供了可操作路径,也为理解语言与思维的进化关系提供了新证据。未来需开发融合进化原则的认知架构,才能使AI真正理解人类社交决策的深层逻辑。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号