编辑推荐:
为解决传统强化学习(RL)框架对人类表征学习和泛化解释有限的问题,研究人员开展 “人类如何通过高效编码学习可泛化表征” 的研究。结果表明融入高效编码的模型能达人类水平表现,这为理解人类学习和泛化提供更全面框架。
在我们生活的世界里,一切都在不断变化,就像那句名言 “人不能两次踏入同一条河流” 描述的那样。面对如此动态的环境,人类却能凭借强大的泛化能力,从过往经验中提取知识并应用到全新的情境中。比如孩子们学会骑自行车后,能将平衡技巧迁移到骑滑板车上,快速掌握新技能。泛化能力对于人类的适应性学习至关重要,它也因此成为认知神经科学和机器学习领域的研究焦点。
过往研究发现,表征学习是支持泛化的关键基石之一。它能将原始的环境刺激转化为抽象状态,提取出环境中最具信息和奖励价值的特征。然而,如何构建有效的表征在理论和理解层面一直存在缺口。
强化学习(RL)作为理解人类行为学习的重要框架,将智能行为视为对预期奖励的最大化追求。但传统的 RL 框架在解释人类表征学习和泛化方面存在明显不足,它常预设固定的任务表征,与现实中人类需从复杂环境中推断表征的情况不符。
为了填补这些研究空白,上海交通大学医学院附属上海精神卫生中心、上海外国语大学脑机智能与信息行为教育部重点实验室等机构的研究人员开展了深入研究。他们提出在经典 RL 理论中融入高效编码原则,即智能体在追求奖励最大化的同时,应使用最简单必要的表征。研究人员认为,受此原则驱动,智能体可自主学习合适的简化表征,进而实现状态抽象和奖励特征提取,最终达成泛化。
为验证这一理论,研究人员设计了两个实验。在实验过程中,研究人员运用了多种技术方法。首先,他们基于获得性等价范式设计实验,让参与者学习刺激 - 行动关联,然后测试其对未训练关联的泛化能力。其次,构建计算层面的模型,包括经典的 RL 基线模型(RLPG)、高效编码策略梯度模型(ECPG)和级联策略梯度模型(CPG)等,并通过参数调整和模型拟合来模拟人类行为。此外,利用信息论量化表征复杂性,通过改变 ECPG 模型中的简单性参数λ 进行模拟,观察模型在不同条件下的表现。同时,在实验 2 中采用 “探针” 设计,通过分析参与者对探针刺激的反应,验证人类提取奖励特征的能力。
在实验 1 中,研究人员使用标准的获得性等价范式研究人类泛化。实验中的外星刺激颜色相同但形状和附属物不同,这样可以专门研究基于功能的泛化。研究发现,高效编码能够驱动状态抽象。随着训练的进行,ECPG 模型的表征复杂性显著降低,刺激被映射到相似的表征中,形成抽象状态。通过轮廓系数(Silhouette score)量化发现,抽象状态逐渐稳定且有意义。同时,处于同一抽象状态的刺激能够相互泛化,模型在测试阶段对未训练关联的准确率显著高于随机水平。将模型与人类行为数据拟合后发现,ECPG 模型能最好地描述大多数参与者的行为,而其他两个控制模型无法捕捉人类的泛化现象。
实验 2 在标准范式基础上进行扩展,研究人类基于功能和基于感知的泛化。研究人员操纵刺激的感知线索,设计了一致、控制和冲突三种实验条件,每种条件下奖励配置不同。同时在测试阶段引入探针刺激,以评估人类提取奖励特征的能力。结果表明,高效编码促进了奖励特征提取。在不同条件下,ECPG 模型能够根据奖励情况调整对不同特征的重视程度。人类参与者在不同实验条件下的泛化表现不同,在一致条件下泛化准确率最高,控制条件下次之,冲突条件下最低。并且,参与者对探针刺激的反应与 ECPG 模型的预测一致,而无高效编码的模型无法复制这种行为模式。
在与其他算法层面模型的比较中,ECPG 模型在解释人类行为方面表现更优。研究人员还发现,虽然一些机器学习正则化方法能在一定程度上模拟人类行为,但 ECPG 模型在捕捉人类快速学习和强大泛化模式方面具有独特优势。
研究结论表明,人类的泛化能力源于高效编码的计算目标。在学习过程中,人类通过提取环境中的少量奖励特征来简化表征,并将其抽象为紧凑的低维内部状态,从而实现泛化。这一发现不仅为理解人类学习和泛化行为提供了更合适的计算目标,也为研究认知和神经过程提供了新的框架。从更广泛的角度看,该研究成果有助于弥合人类大脑表征学习和机器学习之间的差距,为资源合理性原则提供了有力支持,对人工智能在现实世界中的学习和泛化具有重要的启示意义,有望推动相关领域的进一步发展。