海马体回放序列在不确定性环境下指导探索行为的计算机制研究

【字体: 时间:2025年02月16日 来源:Nature Communications

编辑推荐:

  本研究针对动物在不确定性环境中如何通过海马体回放(hippocampal replay)实现最优探索这一核心问题,Georgy Antonov和Peter Dayan团队通过建立贝叶斯信念空间强化学习模型,首次将Mattar&Daw的回放优先理论扩展到部分可观测环境。研究发现序列回放(sequence replay)能有效传播探索价值,在Tolman迷宫任务中成功预测了反向回放模式,为理解离线处理(offline processing)如何平衡探索-利用(exploration-exploitation)困境提供了计算神经科学依据。

  

在复杂多变的环境中,动物如何通过探索未知领域来优化决策?这个看似简单的行为背后,隐藏着大脑精妙的计算机制。传统观点认为,海马体通过重放(replay)过去经历来巩固记忆,但越来越多的证据表明,这种神经活动可能也在规划未来行动中扮演关键角色。特别是在面对环境不确定性时,动物需要权衡"探索未知"与"利用已知"的利弊——这一探索-利用困境(exploration-exploitation dilemma)至今仍是神经科学和人工智能领域的重大挑战。

马克斯·普朗克学会(Max Planck Society)的Georgy Antonov和Peter Dayan团队在《Nature Communications》发表的研究,首次将计算建模与神经机制相结合,揭示了海马体回放如何指导动物在不确定性环境中的探索行为。研究人员通过建立创新的贝叶斯信念空间强化学习模型,成功解释了回放序列的时空模式与探索行为之间的因果关系。

研究主要采用了三种关键技术方法:1)基于DYNA架构的强化学习算法,模拟海马体回放过程;2)贝叶斯信念状态空间建模,量化环境不确定性;3)Tolman迷宫和多臂老虎机(MAB)任务的计算机模拟,验证理论预测。特别值得注意的是,研究团队开发了新颖的序列回放优先算法,能够同时评估多个连续状态更新的全局收益。

探索性回放的计算机制

研究首先在简化的多臂老虎机任务中验证了信念空间回放理论。当面对两个选择臂——一个已知奖励概率,另一个不确定时,模型显示回放优先更新不确定臂的价值估计。这种"探索性增益"(exploratory Gain)计算不仅考虑即时奖励,还包含通过探索可能获得的信息价值。

Tolman迷宫中的回放模式

在更复杂的空间导航任务中,研究人员设计了包含潜在障碍的Tolman迷宫。当动物对障碍状态不确定时,模型预测会出现从障碍位置向起点方向的反向回放序列。这种模式能有效传播探索价值,促使动物检查可能开放的捷径。

序列回放的关键作用

研究发现单一状态回放更新在复杂价值结构中存在局限。当探索发现障碍实际存在时,负面信息难以充分传播。而序列回放能实现深度价值传播,通过同时更新连续动作链,有效修正整个探索策略。

未经历空间的回放预测

模型还成功解释了动物在未实际经历区域出现的回放现象。在模拟Olafsdottir等人的T型迷宫实验时,仅通过观察奖励位置,模型就产生对相应臂的回放,这与实际观察到的"预演"(preplay)神经活动高度一致。

这项研究通过创新的计算框架,首次将海马体回放理论与贝叶斯探索机制相结合,解决了Mattar&Daw原始理论在不确定性环境中的局限性。提出的序列回放机制不仅解释了已知神经现象,还预测了探索行为中特定的回放模式。特别值得注意的是,研究揭示了回放可能实现的三种功能:1)传播探索价值;2)整合跨信念状态信息;3)优化长期探索收益。这些发现为理解"离线处理"的智能计算原理提供了新视角,对发展类脑人工智能算法具有重要启示。

研究还提出了多个可验证的神经科学预测:回放模式应随环境不确定性程度变化;海马体"分裂细胞"(splitter cells)可能编码不同信念状态;前额叶皮层可能参与构建可泛化的信念表征。这些预测为未来实验研究指明了方向,将推动对探索行为神经机制的深入理解。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号