基于模拟忆阻器的类脑强化学习:实现全内存在线训练的Actor-Critic网络
《Nature Machine Intelligence》:Actor–critic networks with analogue memristors mimicking reward-based learning
【字体:
大
中
小
】
时间:2025年12月11日
来源:Nature Machine Intelligence 23.9
编辑推荐:
本研究针对传统强化学习系统能效低、生物合理性不足的问题,开发了一种基于模拟忆阻器的Actor-Critic时序差分学习框架。研究人员利用价态变化记忆(VCM)忆阻器作为多功能突触权重,实现了全内存在线训练、动作计算和权重更新计算。实验证明,该框架在T迷宫和Morris水迷宫导航任务中成功学习最优策略,权重更新误差低于3%。这项研究为开发完全基于内存的神经形态计算引擎迈出了重要一步,为自主机器人的实时导航等应用提供了新思路。
人类大脑以其卓越的能效和计算能力成为计算科学界的灵感源泉。然而,传统的软件强化学习系统虽然在某些复杂任务上表现出色,但其巨大的计算需求和能耗限制了在实时、资源受限环境中的应用。更重要的是,这些系统依赖的反向传播算法不仅缺乏生物合理性,也难以在能效硬件上实现。
在这一背景下,苏黎世联邦理工学院和IBM欧洲研究院的研究团队在《Nature Machine Intelligence》上发表了一项突破性研究。他们开发了一种基于模拟忆阻器的Actor-Critic时序差分学习框架,成功模拟了生物大脑中的奖励学习原理。这一创新性方法首次实现了在类似生物神经网络架构中完全基于忆阻器的强化学习。
研究团队采用的关键技术方法包括:基于HfO2-CMO(导电金属氧化物)双层的模拟忆阻器制备技术,该技术采用CMOS兼容的背端工艺制造;Actor-Critic时序差分学习算法的硬件实现,其中忆阻器同时充当可在线训练的突触权重、动作选择器和权重更新计算器;基于位置细胞的输入表示方法,通过径向基函数(RBF)将连续状态空间映射到神经网络输入;以及创新的内存学习循环机制,该机制能够自动补偿因器件非理想特性引起的误差。研究人员在T迷宫(离散空间)和Morris水迷宫(连续空间)两种典型导航任务上验证了框架的有效性。
Memristor-based actor-critic TD learning
研究团队设计了生物启发的Actor-Critic网络架构,其中批评家(Critic)模块评估状态价值,行动者(Actor)模块学习动作策略。该网络采用三因素学习规则,将时序差分(TD)误差作为第三因素,类似于哺乳动物大脑中多巴胺传递的奖励预测误差。忆阻器在该框架中扮演多重角色:不仅作为突触权重存储学习信息,还直接参与动作计算和权重更新计算。
Analogue memristor synapses as active components of actor-critic networks
研究人员开发了基于W/TiN/CMO/HfO2/TiN堆叠结构的模拟忆阻器,该器件表现出优异的模拟开关特性。实验结果显示,器件在脉冲操作下能够实现渐进可控的电阻切换,产生多个可重现的非易失性状态,非常适合表示Actor-Critic网络中的权重。器件到器件的变异性和更新噪声被详细量化,为后续学习算法的鲁棒性设计提供了依据。
研究团队提出了创新的内存学习循环机制,该机制能够在硬件中直接计算期望的权重更新Δwdes。通过使用包含两个批评家忆阻器和一个固定值电阻器的子网络,实现了时序差分误差的在线计算。实验证明,内存权重更新计算的误差低于3%,且学习循环具备误差校正能力,能够自动补偿因器件非理想特性引起的误差。
Learning in discrete space using analogue memristors
在T迷宫导航任务中,研究团队成功实现了基于硬件忆阻器的在线学习。实验结果显示,学习后的批评家权重与理想软件运行结果高度一致,特别是在靠近奖励的状态下。智能体从初始的随机探索逐渐学习到最优路径,步数收敛到理论最优值6步。这表明即使在存在器件非理想特性的情况下,学习算法仍能有效工作。
Learning in continuous space using in-software-emulated memristors
针对更复杂的Morris水迷宫任务,研究团队通过软件模拟验证了框架的可扩展性。在连续二维状态空间中,智能体成功学习到接近最优的导航策略。政策图和价值图分析表明,学习后的智能体能够从任意起始位置有效导航至目标区域。与PPO(近端策略优化)等深度强化学习算法相比,该框架在保持性能的同时显著降低了计算复杂度。
这项研究的重要意义在于首次实现了完全基于忆阻器的Actor-Critic时序差分学习,为开发真正意义上的全内存神经形态计算引擎奠定了基础。与传统的基于CMOS的神经形态平台相比,该框架避免了内存和处理单元之间的数据迁移瓶颈,显著提升了能效。研究证明,基于局部三因素学习规则的单层网络足以解决复杂的导航任务,这为开发更加生物合理的学习系统提供了新思路。
该框架的潜在应用包括自主机器人的实时导航、无人机控制等资源受限场景。未来工作可将忆阻器集成到交叉开关阵列中,实现更大规模的时序差分学习演示。此外,通过引入资格迹(Eligibility Traces)等生物启发技术,可以进一步加速强化学习任务的收敛速度。这项研究标志着向完全基于内存的神经形态计算迈出了关键一步,为构建更加高效、生物合理的智能计算系统开辟了新途径。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号