一种用于稳定机器人控制的层次化主动推理框架

《Expert Systems with Applications》:A hierarchical active inference framework for stable robotic control

【字体: 时间:2025年12月19日 来源:Expert Systems with Applications 7.5

编辑推荐:

  机器人模仿学习中的神经科学启发的分层主动推理框架,通过整合皮层(Conv-xLSTM+多模态注意力模块)、小脑(变分自编码器实现预测误差最小化)和脊髓(xLSTM-Transformer低延迟执行)三个层次,解决了传统方法稳定性与适应性不足的问题,在Drag、Transfer、Push-T三个任务中实现93%-100%成功率,轨迹平滑度提升35.29%。

  
刘东玲|谭雅凡|王书宇
东北大学信息科学与工程学院,中国辽宁省沈阳市110819

摘要

本文提出了一种名为Active Inference-Visuomotor Policy Learning (AIF-VPL)的新颖主动推理框架,该框架将神经科学原理与机器人模仿学习相结合。当前的方法在平衡稳定性和适应性方面存在困难,而我们的架构展示了大脑皮层-小脑-脊髓的计算原理如何解决这一挑战。在皮层层面,一个结合了多模态注意力模块(MAM)的混合Conv-xLSTM网络处理时空视觉-本体感觉输入以进行任务规划。受小脑启发的中间层使用精确加权的变分自编码器实现主动推理,通过迭代动作优化来最小化感官预测误差,从而提高稳定性(抖动减少了35%)。最后,脊髓层面的xLSTM-Transformer网络通过结构化的动作序列确保低延迟的运动执行。在三个操纵任务(拖拽、转移和推-T)上的评估表明,AIF-VPL的成功率达到了93-100%,优于扩散策略和行为克隆基线。消融研究证实,每个受神经生物学启发的组件都是必不可少的:MAM产生了时间连贯的表示,而主动推理将轨迹抖动减少了35%。这项工作首次实现了机器人学中的分层主动推理,提供了一个将神经机器人学和计算神经科学联系起来的原理性框架。

引言

在非结构化环境中的机器人操纵需要感知、决策和运动控制的无缝集成(Panda等人,2025年;Yang等人,2025年)。尽管机器学习取得了进展,但现有系统仍难以达到生物感觉运动系统的鲁棒性和适应性(Billard和Kragic,2019年;Todorov,2004年)。这一差距源于一个根本性的限制:大多数机器人架构将感知和动作视为独立的模块(Merel等人,2019年),忽略了生物运动控制背后的分层、预测和纠错机制(Ijspeert,2008年;Tani和Nolfi,1999年)。
生物系统通过大脑皮层-小脑-脊髓的层次结构来解决这一挑战:皮层利用多模态上下文规划动作(Friston,2010年),小脑通过最小化感官预测误差来细化动作,脊髓执行低延迟的运动指令(Pimentel等人,2023年)。虽然这种架构已经启发了一些计算模型(Buckley等人,2017年),但现有的机器人实现要么过度简化了这一层次结构,要么未能在真实世界任务中应用它,特别是缺乏类似小脑的主动推理(AIF)层,后者通过连续的错误校正来稳定运动(Oliver等人,2022年)。
为了解决这些挑战,我们提出了一个基于生物学的架构,统一了感觉运动控制的三个核心原则。首先,皮层层面的处理通过Conv-xLSTM(长短期记忆)网络和多模态关联层实现,使视觉和本体感觉输入在时空上集成以进行任务规划和模仿。其次,通过精确加权的变分自编码器(VAEs)实现类似小脑的预测处理,持续最小化感官预测误差,模仿主动推理。第三,通过xLSTM-Transformer编码器网络实现受脊髓启发的反射控制,确保低延迟的运动响应。这种三部分架构弥合了高级决策和低级运动执行之间的传统分歧,同时保持了生物学上的真实性。
这项工作的意义在于三个贡献:
  • 它首次在机器人学中实现了完整的大脑皮层-小脑-脊髓主动推理层次结构,超越了理论或单层公式。
  • 它展示了自由能最小化如何解决模仿学习中的稳定性-适应性权衡问题,在不牺牲任务成功率的情况下(三个任务中成功率均为93-100%),实现了更平滑的轨迹。
  • 它提供了一个生物学上合理的、模块化的架构,推动了神经机器人学(作为感觉运动理论的测试平台)和应用机器人学(作为一个稳定、可泛化的控制框架)的发展。
  • 部分摘录

    用于机器人控制的模仿学习

    模仿学习已成为机器人技能获取的基本范式,能够从专家演示中高效学习操纵行为(Hussein等人,2017年)。该领域已经从早期的行为克隆方法发展到现代的概率方法。虽然传统的行为克隆实现简单,但它受到累积误差和分布偏移的影响(Zare等人,2024年)。像DAgger这样的交互式方法通过

    整体层次控制框架

    人类感觉运动系统由三层架构组成(图1a),因此我们也开发了一个层次化的生成控制框架。高级控制器模仿大脑皮层和基底神经节的操作原理,处理本体感觉和视觉输入,并确定运动的目标(图1b)。为了模拟皮层学习和多模态信息的注意力处理,我们引入了一个多模态注意力模块(MAM),该模块融合并

    任务描述

    我们的隐式层次化生成模型使机器人能够在模拟环境中自主获取和执行指定的操纵任务。我们在三种不同的场景中验证了该模型(图4)。拖拽任务中,机器人使用末端执行器将盒子拉近,然后收集随机生成的木块并将它们放入盒子中,最后将盒子推回原位。转移任务要求机器人使用

    讨论

    本研究的结果表明,我们基于生物学的层次化主动推理框架显著推动了机器人模仿学习的发展。通过模仿生物运动系统的大脑皮层-小脑-脊髓组织,我们的架构在稳定性和泛化能力方面优于现有方法。关键创新在于多模态感知与层次化控制的紧密集成,每个层次都专注于

    结论

    本文提出了AIF-VPL,这是一种用于机器人模仿学习的层次化主动推理框架,它将神经科学原理与可部署的控制架构相结合。通过模仿生物运动系统的大脑皮层-小脑-脊髓组织,我们的方法实现了三个关键进步:(1)通过Conv-xLSTM网络和注意力机制实现皮层层面的多模态融合,从而实现稳健的任务表示。(2)类似小脑的主动推理通过预测来细化动作

    CRediT作者贡献声明

    刘东玲:方法论、软件、形式分析、调查、数据管理、可视化、撰写——原始草稿。谭雅凡:方法论、数据管理、撰写——审阅与编辑。王书宇:概念化、监督、项目管理、资金获取、方法论、撰写——审阅与编辑、验证。

    利益冲突声明

    作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

    致谢

    本工作得到了国家自然科学基金(项目编号:62104034)和河北省自然科学基金(项目编号:236Z1706G)的财政支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普
    • 急聘职位
    • 高薪职位

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号