综述:主动推理与认知控制:通过精度优化平衡深思与习惯

【字体: 时间:2025年06月16日 来源:Physics of Life Reviews 13.7

编辑推荐:

  这篇综述创新性地将认知控制理论置于主动推理(Active Inference)框架下,提出认知控制本质上是优化精度参数γ的过程,该参数作为控制信号平衡动作选择中深思(G)与习惯(E)组分的贡献。通过驾驶场景模拟,揭示了标准主动推理模型在稳定环境中可形成适应性习惯,但缺乏环境突变时的敏感性。作者引入分层主动推理架构,其中元认知层通过调控行为层的γ参数实现习惯的灵活悬置,并统一解释了认知冲突监测、控制信号调节(dACC)、多巴胺能通路(DA)动态等神经机制。

  

主动推理与认知控制的理论革新

传统认知科学将行为控制分为习惯性(自动)与目标导向(受控)过程。本文突破性地将这一分野纳入主动推理框架,提出认知控制的核心在于优化精度参数γ——该参数作为"控制旋钮",动态调节深思(基于预期自由能G)与习惯(基于先验E)在动作选择中的权重。通过驾驶模拟实验,研究者首次证明标准主动推理模型虽能实现从深思到习惯的平滑过渡(习惯化),却难以在环境突变时恢复深思模式(习惯覆写失败)。

分层架构:行为层与元认知层的协同

为解决上述局限,研究团队设计了双层生成模型:

  • 行为层:执行常规的主动推理,包含状态推断(s)、策略选择(π)及精度参数γ的优化
  • 元认知层:作为"高阶监督者",通过观测行为层的贝叶斯惊讶度(Bayesian surprise)和认知冲突(DKL
    [pG
    (π)∥pE
    (π)]),生成控制信号γ'来重置γ的先验值。这种层级设计首次在计算模型中实现了习惯的"主动悬置"机制。

驾驶模拟的三重实验验证

在32次试验的驾驶任务中:

  1. 无认知控制模型:驾驶员在右车道安全行驶18次后形成强习惯(E权重>0.9),但遭遇落石危险时仍持续选择右车道(KO结果),显示"默认覆写"失败
  2. 简单元认知控制:通过虚构观察(fictive observations)模拟左车道OK结果,使γ'产生正向更新,最终在危险出现3次后成功切换车道
  3. 完整元认知控制:引入代价函数(mental effort = DKL
    [γG∥E] + 控制代价),当dACC检测到"警告信号+高冲突"时,才代价性地启动γ'更新,实现精准控制。

神经机制的统一解释

模型为关键认知控制环路提供全新解读:

  • 多巴胺能系统:中脑边缘通路(mesolimbic)编码γ更新,反映对当前策略的信心;中脑皮质通路(mesocortical)的γ'更新对应控制信号生成
  • dACC:计算控制代价与收益的平衡点,其活动强度与DKL
    [γG∥E]呈正相关
  • 蓝斑核:通过释放去甲肾上腺素响应贝叶斯惊讶度,调节学习速率。模拟显示,当DKL
    [P(st
    |ot
    )∥P(st
    )]>2.5时触发显著LC响应。

超越经典理论的理论优势

相比预期控制价值(EVC)等传统模型,本框架具有:

  1. 统一性:将监测(冲突/惊讶)、调控(γ优化)、代价计算纳入单一自由能最小化过程
  2. 前瞻性:通过虚构观察实现"预先控制",解释为何想象未来结果能降低冲动性
  3. 神经可解释性:首次在单一模型中整合DA、dACC、LC三系统的动态交互。参数扫描显示,当习惯学习率η<20且偏好精度c>1.2时,完整模型成功率可达92%,显著优于无控制模型(45%)。

这项研究为理解从强迫症到成瘾等习惯障碍疾病提供了新视角,其分层控制架构对开发类脑人工智能具有重要启示。未来工作将拓展至Stroop任务等经典认知控制范式,并探索LC-dACC-DA环路的精细动态耦合机制。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号