大型语言模型预测人类社交决策能力的评估：进化心理学框架下的系统性比较研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月04日 来源：Scientific Reports 3.9

编辑推荐：

　　本研究针对大型语言模型(LLMs)预测人类社交决策的能力展开系统性评估。研究人员在进化心理学框架下，通过51个社会情境(9600次响应)比较了GPT-3.5、GPT-4与2104名人类参与者的决策差异，并进一步用GPT-4o验证了8种社会群体和亲属关系条件下的预测效果。研究发现LLMs在生命抉择中表现出与人类不同的风险偏好模式：人类对亲属关系和群体规模更敏感，而LLMs在金融领域与人类更接近但呈现相反的风险框架效应。该研究为构建心理版图灵测试提供了量化标准，对AI的社会决策对齐具有重要意义。

在人工智能飞速发展的今天，大型语言模型(LLMs)如ChatGPT已展现出惊人的语言理解和生成能力。然而，这些数字智能体是否真正理解人类社交决策的深层逻辑？它们能否通过心理学的"图灵测试"？这些问题在AI日益介入医疗诊断、法律咨询等社会决策领域的背景下显得尤为重要。传统研究多关注LLMs的技术性能，却忽视了其与人类社交理性的本质差异——这正是香港中文大学(深圳)应用心理学系XiaoTian WANG团队在《Scientific Reports》发表的最新研究要解决的核心问题。

人类社交决策是数百万年进化的产物，包含着对亲属关系、群体规模和社会框架的精细权衡。例如面对"救200人"还是"赌1/3概率救600人"的经典困境，人类选择会因"亲属在场"或"表述方式"产生戏剧性反转。这种"非理性"恰恰反映了进化形成的适应性机制。研究团队创造性地将LLMs视为"新物种"，通过51个社会情境的系统性比对，揭示了AI与人类在社交决策中存在的根本性差异。

研究采用对照实验设计，通过GPT-3.5、GPT-4和GPT-4o预测2104名人类参与者在生命抉择、财产风险等场景中的选择。关键方法包括：1)构建18组正负框架对照的决策情境；2)设计亲属构成(1-6名亲属)和群体规模(6-6000人)的梯度变化；3)引入外星生命对照检验群体特异性；4)通过公平感知、年龄意识和目标设定等进化心理学范式评估决策前提。所有AI预测均通过独立会话收集100次响应以确保统计效力。

【风险偏好对社会和语言线索的响应】

在生命抉择中，人类展现出典型的框架效应：600人情境下负面框架的风险寻求率(65%)显著高于正面框架(42%)(Z=-2.75)。这种效应在6人亲属群体中消失，证实了进化假设——亲属关系会覆盖语言框架的影响。令人惊讶的是，GPT-3.5在小型群体中表现出与人类相反的模式，正面框架下风险寻求率反而更高(Z=2.56)；GPT-4则对所有群体规模均保持风险规避，完全忽视社会语境差异。

【亲属与群体成员构成】

当群体包含1-2名亲属时，人类决策受框架显著影响(Z=-3.20)，而纯亲属群体中该效应消失。GPT-4对此完全不敏感，在混合群体中保持固定风险规避(log OR<-2.54)。更具戏剧性的是，GPT-3.5在1名亲属情境中竟出现完全反向的框架效应(Z=2.81)，暗示其可能将增益框架误读为风险信号。

【人类与外星生命对比】

人类对60亿同类的框架敏感度(Z=-2.94)显著高于外星生命，而GPT-4完全无视这一区别。这支持了"大群体决策依赖次级语言线索"的假说，也暴露了LLMs缺乏进化形成的群体认同机制。

【公共财产与个人投资】

在财务领域，人类风险规避随金额增大而增强(6000美元：Z=-3.65)，符合前景理论。GPT-4虽保持整体规避倾向，但未能呈现金额梯度变化；GPT-3.5则在小额时反常风险寻求(Z=3.35)。

【决策前提的影响】

公平感知测试中，人类在6人群体中更倾向公平选项(Z=-5.24)，而GPT-3.5竟偏好预先选择的不公平方案(Z=3.92)。年龄意识实验中，中年人类会区别对待"救父母"与"救子女"，GPT-4则机械套用"救年轻"的统计规律。目标设定分析显示，人类会为亲属群体设置更高生存阈值(>2/3)，LLMs则僵化遵循期望值原则。

验证研究使用GPT-4o测试8组框架对，发现其风险偏好与人类完全相反：小型群体更规避风险(Z=-3.81)，大型群体反而风险寻求。在混合亲属群体中，GPT-4o再次出现反向框架效应(Z=7.48)，凸显LLMs社会认知的系统性偏差。

这项研究首次在进化心理学框架下建立了评估LLMs社交决策的量化标准体系，揭示出三大关键发现：1)人类决策依赖亲属选择、群体规模等进化形成的启发式，而LLMs受训练数据统计规律支配；2)GPT-3.5存在系统性框架效应反转，GPT-4过度强调安全导致社会语境失敏；3)LLMs缺乏自我年龄意识、群体依赖目标设定等人类核心认知特征。这些发现对AI伦理具有深远启示——当前LLMs在医疗分诊、危机处置等社会决策中可能产生违背人类价值观的输出。研究提出的"心理图灵测试"标准(框架效应、亲属敏感度等8维度)为AI的社会对齐提供了可操作路径，也为理解语言与思维的进化关系提供了新证据。未来需开发融合进化原则的认知架构，才能使AI真正理解人类社交决策的深层逻辑。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号