450 毫秒神经放电预测“人性”

【字体: 时间:2025年06月05日 来源:Nature 50

编辑推荐:

  来自国际团队的研究人员通过开发时间-强度强化学习(TMRL)算法,突破了传统时序差分(TD)强化学习仅预测奖赏均值的局限,首次揭示了中脑多巴胺神经元(DANs)能够编码未来奖赏在时间和强度维度上的联合概率分布。该研究通过光遗传学技术结合行为学实验证明,450毫秒的DAN群体响应即可构建二维概率图谱,为理解动态奖赏环境下的决策机制提供了新范式。

  

中脑多巴胺神经元(DANs)向来被认为是奖赏预测误差(RPE)的神经载体,通过时序差分(TD)强化学习算法教导下游神经回路预测未来奖赏。但传统TD算法存在明显局限——它只计算未来奖赏的时序折现均值,却丢弃了奖赏强度分布和延迟时间等关键信息。

这项突破性研究提出了全新算法"时间-强度强化学习"(TMRL),将分布强化学习扩展到时间和强度两个维度。更令人振奋的是,研究者通过光遗传学标记的小鼠实验发现:DANs群体展现出惊人的多样性——不同神经元对奖赏延迟时间(时间折扣率)和奖赏强度的编码存在显著差异。这种群体编码特性使得仅需分析450毫秒的DANs放电模式,就能构建出未来奖赏的二维概率分布图谱。

实验数据还揭示,从该神经编码解码出的奖赏时间预测与小鼠的 anticipatory behavior( anticipatory behavior)高度相关,暗示这套系统可能直接指导"何时行动"的决策。通过构建 foraging( foraging)行为模型,研究团队进一步证明:在动态变化的奖赏环境中,这种联合概率分布编码能显著提升适应性决策的效率。

这些发现不仅重塑了人们对多巴胺系统计算原理的认知,更提出了TD算法的局部时间扩展方案——只需简单修改现有框架,就能实现这种多维奖赏信息的获取与计算。该研究为理解智能体如何在复杂环境中进行风险-收益权衡提供了全新的神经计算视角。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号