习惯与工作记忆模型:人类奖赏学习的新解释——强化学习算法的挑战与反思

《Nature Human Behaviour》:A habit and working memory model as an alternative account of human reward-based learning

【字体: 时间:2025年11月18日 来源:Nature Human Behaviour 15.9

编辑推荐:

  本研究通过重新分析7个数据集(n=594),挑战了强化学习(RL)算法在解释人类奖赏学习中的主导地位。作者提出,在排除工作记忆(WM)贡献后,人类学习行为并非由标准RL计算驱动,而是由快速WM过程和缓慢的习惯样(H)关联过程共同解释。这一发现对RL框架在行为与神经科学中的解释提出重要质疑,呼吁重新审视多过程在决策中的作用。

  
在认知神经科学领域,强化学习(Reinforcement Learning, RL)算法长期以来被视为解释人类和动物奖赏学习行为的黄金标准。从简单的经典条件反射到复杂的情境性多臂赌博机任务,RL模型不仅成功预测了行为模式,还能捕捉大脑信号(如多巴胺能信号)的变异。然而,越来越多证据表明,人类奖赏学习实际上涉及多种认知过程的协同作用,包括工作记忆(Working Memory, WM)、情景记忆和选择持续性策略等。这些非RL过程的行为预测与RL模型高度相似,导致其贡献常被错误归因于RL计算,进而引发学术界对RL框架解释力的争议。
为厘清RL在人类学习中的真实作用,加州大学伯克利分校的Anne G.E. Collins团队在《Nature Human Behaviour》发表研究,通过重新分析7个数据集(n=594),提出一种新的双过程模型——工作记忆与习惯模型(WMH),挑战了传统RL理论的核心假设。研究聚焦于RLWM实验范式,该范式通过操纵刺激集大小(set size)分离WM的贡献,从而揭示隐藏在学习行为背后的本质机制。
关键方法概述
研究整合了6个已发布的RLWM任务数据集和1个新数据集,以及1个概率性版本任务(RLWM-P)数据集。通过计算建模(包括RLWM和WMH等混合模型)、行为分析(如错误试验分析)和模拟验证,比较了不同模型对学习曲线和错误模式的拟合优度。模型参数通过最大似然估计优化,并使用AIC进行模型比较,同时通过参数可识别性分析确保结果可靠性。
行为分析揭示非RL学习特征
研究团队首先通过错误试验分析检验负性反馈的整合机制。发现被试在低负载条件下能利用负向结果避免重复错误,但在高负载(如集大小ns=6)时,该能力显著减弱甚至出现错误持续现象。
这一模式与标准RL模型的预测(负向预测误差应降低错误重复概率)直接矛盾,提示高负载下主导的慢速过程可能并非RL。
WMH模型优于传统RLWM模型
计算建模显示,包含WM和习惯样(H)模块的WMH模型在所有数据集中拟合最佳。其中H模块以固定主观奖赏值r0=1更新关联权重,即对正确和错误反馈进行同向处理,仅追踪刺激-行动关联强度而非奖赏价值。
该模型成功复现了高负载下错误忽视现象,而RLWM模型即使将负向学习率设为0仍无法捕捉该模式。
概率性任务验证模型普适性
在概率性RLWM-P任务中,WMH模型同样优于RLWM模型,表明即使在学习需要积分奖赏信息的环境中,习惯样过程仍主导慢速学习组件。
H代理通过WM引导模拟RL策略
模拟实验表明,尽管H模块单独无法学习优化策略,但在与WM混合时,其策略可近似标准RL策略。
这说明在多数实验任务中,H代理的贡献可能被误判为RL计算。
研究结论与意义
本研究通过严谨的行为分析和计算建模,证实人类奖赏学习主要由快速、容量有限的WM过程和缓慢、价值不敏感的H过程共同驱动,而非传统RL算法。这一发现对神经科学和行为研究具有三重意义:其一,挑战了RL模型作为解释学习机制的黄金标准,强调需谨慎解读基于RL的神经信号分析;其二,揭示习惯样过程虽简单却能与WM协同实现适应性行为,提供新的计算机制视角;其三,呼吁未来研究通过实验设计分离多过程贡献,如操纵选择与奖赏历史的解关联。此外,研究结果在健康成人、儿童、老年人群及精神分裂症患者中均一致,凸显其鲁棒性。这项工作为理解学习行为的复杂本质提供了新框架,推动领域向多过程整合模型迈进。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号