高斯增强型多智能体强化学习在动态追逃博弈中的可扩展规避策略研究

【字体: 时间:2025年07月31日 来源:Neurocomputing 6.5

编辑推荐:

  针对多智能体追逃博弈中稀疏奖励、局部最优收敛及高维状态空间等挑战,西北工业大学研究团队提出高斯增强型多智能体强化学习框架(MERL-GP)。该研究通过集成高斯过程回归与Q函数逼近,实现了动态环境下的在线参数自适应与概率化决策,显著提升了逃逸策略的鲁棒性和可扩展性。仿真与物理实验验证了其在复杂场景中的有效性,为大规模自主系统的战略交互提供了通用解决方案。

  

在自主系统与智能机器人领域,多智能体追逃博弈(Pursuit-Evasion Games)一直是极具挑战性的研究方向。这类博弈模拟了从军事围捕到灾害救援的多种现实场景,但现有方法面临三大瓶颈:传统几何策略(如Voronoi图、Apollonius圆)在复杂动态环境中适应性不足;基于多智能体强化学习(MARL)的方法易陷入局部最优且难以应对高维状态空间;而逃逸策略的研究长期被忽视,多数工作聚焦于追捕方。更棘手的是,随着智能体数量增加,系统的随机性和不确定性会指数级放大,导致策略失效。

针对这些难题,西北工业大学(Northwestern Polytechnical University)航天学院的Ye Zhang团队在《Neurocomputing》发表研究,提出名为MERL-GP的创新框架。该工作首次将高斯过程(Gaussian Process, GP)与多智能体Q学习深度融合,构建了兼具概率推理和在线适应能力的逃逸策略生成系统。通过低维时序参数表征高维状态空间,并设计复合奖励机制(融合风险度量与有限捕获时间),该框架在仿真和实物实验中成功实现了:1)50%以上逃逸成功率提升;2)对5-20个追捕者的可扩展应对;3)在部分可观测马尔可夫决策过程(POMDP)下的稳定表现。

关键技术包括:1)基于高斯过程的Q函数逼近,用于处理高维状态空间的不确定性;2)复合奖励机制设计,平衡即时逃逸与长期策略优化;3)离散化动作空间映射,将连续控制转化为时序关键动作决策;4)ROS/Gazebo半物理验证平台构建。

问题建模与POMDP框架
研究将追逃博弈建模为部分可观测马尔可夫决策过程(POMDP),其中逃逸者仅能获取有限检测范围内的追捕者状态。通过引入时序参数替代传统位置/速度描述,状态空间维度降低60%,解决了"维度灾难"。

MERL-GP方法架构
核心创新在于高斯过程与Q学习的协同:GP回归实时估计值函数的不确定性,指导探索-利用权衡;而离散化动作空间(如急转、变速)通过影响捕获时间而非直接位姿控制,显著提升策略泛化性。实验显示,该方法样本效率较MADDPG提升3倍。

仿真与实物验证
在空地异构机器人平台上,MERL-GP在20追捕者场景中仍保持78%逃逸率,而传统几何策略(如Apollonius圆)在超过5个追捕者时失效。Gazebo实验进一步验证了其在传感器噪声和通信延迟下的鲁棒性。

这项研究的突破性在于:首次实现追逃博弈策略从"低维确定"到"高维概率"的范式跃迁。通过高斯过程嵌入的强化学习架构,不仅解决了MARL在动态博弈中的固有局限,更开创性地将逃逸策略研究扩展到大规模智能体系统。其模块化设计(如可替换的GP核函数)为后续研究提供了通用工具链,在无人集群对抗、智能交通避碰等领域具有广泛应用前景。团队特别指出,未来可结合Transformer架构进一步处理超大规模(>100智能体)博弈,这将是自主系统决策领域的下一个攻坚方向。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号