基于多策略优化的价值分解深度强化学习在车辆路径规划中的应用

【字体: 时间:2025年08月08日 来源:Neurocomputing 6.5

编辑推荐:

  本文提出了一种创新性的价值分解多策略优化(VDMPO)方法,通过结合基于行动者-评论家(actor-critic)框架的智能体网络和上层混合网络,解决了协作多智能体强化学习(MARL)中任务性能低效和奖励分配困难的难题。该方法支持离散/连续动作空间任务,通过团队奖励的价值拟合机制提升协作效率,实验表明其在多无人机监控(MDM)等场景中显著优于主流算法(如MAPPO、QMIX)。

  

亮点

本文提出的VDMPO算法通过双层网络架构(上层混合网络+底层智能体网络)实现了联合状态价值的动态分解,其核心创新点包括:1)采用特殊目标价值网络提升训练稳定性;2)仅将全局状态输入混合网络而非单个智能体的评论家网络,显著降低输入维度。

算法结构设计

如图1所示,VDMPO框架包含:

  • 智能体网络:每个智能体拥有独立的行动者(接收局部观测oi输出动作ai)和评论家网络

  • 混合网络:通过超网络组将联合Q值tot非线性分解为个体Q值

  • 奖励分配机制:基于价值拟合自动分配团队奖励,避免人工设计个体奖励的偏差

实验验证

在MDM和MPE场景中,VDMPO相比QMIX(非线性值分解)、MADDPG(集中式训练)等算法:

  • 平均任务完成率提升23.6%

  • 训练稳定性提高37.2%(通过目标网络延迟更新实现)

结论

VDMPO为复杂状态下的多智能体协作提供了通用解决方案,其价值分解机制可扩展至医疗机器人协同手术等生命科学领域,未来将探索在部分可观测马尔可夫决策过程(POMDP)中的应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号