习惯与工作记忆模型:人类奖赏学习的新解释——强化学习算法的挑战与反思
《Nature Human Behaviour》:A habit and working memory model as an alternative account of human reward-based learning
【字体:
大
中
小
】
时间:2025年11月18日
来源:Nature Human Behaviour 15.9
编辑推荐:
本研究通过重新分析7个数据集(n=594),挑战了强化学习(RL)算法在解释人类奖赏学习中的主导地位。作者提出,在排除工作记忆(WM)贡献后,人类学习行为并非由标准RL计算驱动,而是由快速WM过程和缓慢的习惯样(H)关联过程共同解释。这一发现对RL框架在行为与神经科学中的解释提出重要质疑,呼吁重新审视多过程在决策中的作用。
在认知神经科学领域,强化学习(Reinforcement Learning, RL)算法长期以来被视为解释人类和动物奖赏学习行为的黄金标准。从简单的经典条件反射到复杂的情境性多臂赌博机任务,RL模型不仅成功预测了行为模式,还能捕捉大脑信号(如多巴胺能信号)的变异。然而,越来越多证据表明,人类奖赏学习实际上涉及多种认知过程的协同作用,包括工作记忆(Working Memory, WM)、情景记忆和选择持续性策略等。这些非RL过程的行为预测与RL模型高度相似,导致其贡献常被错误归因于RL计算,进而引发学术界对RL框架解释力的争议。
为厘清RL在人类学习中的真实作用,加州大学伯克利分校的Anne G.E. Collins团队在《Nature Human Behaviour》发表研究,通过重新分析7个数据集(n=594),提出一种新的双过程模型——工作记忆与习惯模型(WMH),挑战了传统RL理论的核心假设。研究聚焦于RLWM实验范式,该范式通过操纵刺激集大小(set size)分离WM的贡献,从而揭示隐藏在学习行为背后的本质机制。
研究整合了6个已发布的RLWM任务数据集和1个新数据集,以及1个概率性版本任务(RLWM-P)数据集。通过计算建模(包括RLWM和WMH等混合模型)、行为分析(如错误试验分析)和模拟验证,比较了不同模型对学习曲线和错误模式的拟合优度。模型参数通过最大似然估计优化,并使用AIC进行模型比较,同时通过参数可识别性分析确保结果可靠性。
研究团队首先通过错误试验分析检验负性反馈的整合机制。发现被试在低负载条件下能利用负向结果避免重复错误,但在高负载(如集大小ns=6)时,该能力显著减弱甚至出现错误持续现象。这一模式与标准RL模型的预测(负向预测误差应降低错误重复概率)直接矛盾,提示高负载下主导的慢速过程可能并非RL。
计算建模显示,包含WM和习惯样(H)模块的WMH模型在所有数据集中拟合最佳。其中H模块以固定主观奖赏值r0=1更新关联权重,即对正确和错误反馈进行同向处理,仅追踪刺激-行动关联强度而非奖赏价值。该模型成功复现了高负载下错误忽视现象,而RLWM模型即使将负向学习率设为0仍无法捕捉该模式。
在概率性RLWM-P任务中,WMH模型同样优于RLWM模型,表明即使在学习需要积分奖赏信息的环境中,习惯样过程仍主导慢速学习组件。
模拟实验表明,尽管H模块单独无法学习优化策略,但在与WM混合时,其策略可近似标准RL策略。这说明在多数实验任务中,H代理的贡献可能被误判为RL计算。
本研究通过严谨的行为分析和计算建模,证实人类奖赏学习主要由快速、容量有限的WM过程和缓慢、价值不敏感的H过程共同驱动,而非传统RL算法。这一发现对神经科学和行为研究具有三重意义:其一,挑战了RL模型作为解释学习机制的黄金标准,强调需谨慎解读基于RL的神经信号分析;其二,揭示习惯样过程虽简单却能与WM协同实现适应性行为,提供新的计算机制视角;其三,呼吁未来研究通过实验设计分离多过程贡献,如操纵选择与奖赏历史的解关联。此外,研究结果在健康成人、儿童、老年人群及精神分裂症患者中均一致,凸显其鲁棒性。这项工作为理解学习行为的复杂本质提供了新框架,推动领域向多过程整合模型迈进。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号