人类行为中继任表征的逐步学习过程

《PLOS Computational Biology》:Trial-by-trial learning of successor representations in human behavior

【字体: 时间:2025年11月18日 来源:PLOS Computational Biology 3.6

编辑推荐:

  反应时间分析显示人类在图学习任务中通过资格追踪和回溯的混合机制学习长期预测模型,其中资格追踪占主导(λ≈0.7)。研究证实SR-TD(λ)结合近期学习模型更优,揭示多时序学习机制。

  人类和其它生物的决策过程,部分依赖于学习和使用能够捕捉世界统计结构的模型,包括我们行为的长期预期结果。为了更深入地理解这些模型如何被学习,研究者们提出了多种学习规则,如时间差分学习(TD)和资格迹(eligibility trace)机制。这些规则在学习长期预测时表现出不同的动态特性,而现有的研究表明,这些模型在行为和神经层面都有支持,但尚未明确揭示大脑是如何具体学习这些模型的。

为了填补这一知识空白,研究团队采用了一种新的方法,即通过逐试反应时间(reaction times)来分析学习动态。这种研究方法特别适合于探讨不同学习规则在长时间跨度下的表现差异。研究者们在一个概率图学习任务中,考察了SR-TD(λ)模型与其他学习规则的拟合效果,结果发现行为最符合一种混合模型,该模型结合了SR-TD(λ)和一种基于近期信息的预测模型。这种模型的参数估计显示,资格迹机制在学习过程中起到了主导作用,这与以往普遍认为的基于时间差分的链式更新机制(如SR-TD(0))有所不同。

研究发现,当人们进入一个新的图簇时,他们对第一个节点的反应时间会比对第二个节点更慢。这种现象支持了SR模型的预测,即跨簇转移的预测权重较低。进一步的模型拟合分析表明,SR-TD(λ)模型在所有受试者群体中提供了比单一预测模型更好的拟合效果,尤其是在考虑了资格迹机制之后。此外,研究团队还发现,资格迹模型在行为数据中具有明显的特征,如在特定序列模式下,反应时间的显著变化,而基于链式更新的机制则没有表现出类似的行为特征。

研究团队还探讨了SR模型与其它学习机制之间的关系,如基于最近信息的模型(recency model)和基于一步转移概率的模型(one-step model)。结果显示,尽管这些模型在某些方面可以解释部分行为数据,但它们在拟合反应时间方面不如SR-TD(λ)模型。这表明,在实际行为中,SR的学习机制与近期信息的预测机制是同时存在的,并且各自对反应时间的影响程度不同。

研究还指出,SR模型的学习过程可能涉及多种机制,包括资格迹和时间差分链式更新。然而,实验结果更倾向于支持资格迹机制在学习过程中起到了更为关键的作用。这种机制的生物学合理性也得到了支持,例如通过持久的化学变化或神经活动模式来实现。此外,研究团队还提到,资格迹机制可能与记忆和认知地图的学习过程相关,因为它们允许对不同时间尺度上的预测进行整合。

研究团队还分析了SR模型中的两个关键参数:λ(资格迹的持续时间)和γ(未来状态预测的跨度)。结果表明,λ的估计值较高,意味着资格迹机制在学习过程中占据主导地位。相比之下,γ的估计值则在更短的时间范围内,反映了预测模型对当前和未来状态的权重分配。这些参数的估计为理解人类如何学习和使用长期预测模型提供了重要的线索。

研究还探讨了SR模型在不同图结构下的表现,包括模块化图、格子图和随机图。结果显示,无论图结构如何,SR-TD(λ)模型都提供了更好的拟合效果,尤其是在考虑了资格迹机制之后。此外,研究团队还发现,资格迹机制在模型拟合和行为数据分析中都具有显著的特征,这表明其在学习过程中可能扮演了更为重要的角色。

通过这些研究,我们对人类如何学习和使用长期预测模型有了更深入的理解。研究结果表明,资格迹机制在学习过程中起到了主导作用,而时间差分链式更新机制的作用相对较小。这种发现对于理解大脑如何形成和利用长期预测模型具有重要意义,并可能为相关神经机制的研究提供新的方向。未来的研究可以进一步探讨这些机制在不同任务和环境下的表现,以及它们如何相互作用以支持复杂的行为和决策过程。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号