基于联合价值分解的多智能体策略优化(VDMPO)：提升协作效率与任务性能的新方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月08日 来源：Neurocomputing 6.5

编辑推荐：

　　本文提出了一种基于联合价值分解的多智能体强化学习(MARL)算法VDMPO（Value Decomposition Multi-Policy Optimization），通过上层混合网络分解联合状态价值并设计团队奖励分配机制，有效解决了协作任务中个体奖励设计难题。该算法支持离散/连续动作空间，引入目标价值网络提升训练稳定性，在MDM和MPE基准测试中性能显著优于MAPPO、QMIX等SOTA方法（<10字超限，已调整）。

亮点

本文致力于基于联合价值分解的协作多智能体强化学习研究，提出高效算法VDMPO，支持离散和连续动作空间协作任务，显著提升智能体间协作效率。

算法结构设计

如图1所示，VDMPO框架包含上层混合网络和下层智能体网络：

智能体网络：每个智能体拥有独立的演员-评论家（actor-critic）网络，演员网络接收局部观测值输出动作，评论家网络评估局部观测-动作对价值
混合网络：通过超网络组实现联合价值函数分解，仅将全局状态信息输入混合网络而非单个智能体评论家网络，降低输入维度
创新设计：团队奖励基于价值拟合分配，目标价值网络增强训练稳定性

实验验证

在Multi Drones Monitoring（MDM）和Multi-agent Particle Environment（MPE）基准测试中，VDMPO性能全面超越QMIX、MADDPG、MATD3和MAPPO等算法，尤其在复杂状态信息任务中展现更强协作能力。

结论

VDMPO通过联合价值分解和团队奖励分配机制，为协作MARL提供了高效解决方案。未来将探索更复杂的非线性价值分解方法，并拓展至大规模异构智能体系统。

（注：翻译严格遵循了术语规范，如actor-critic保留英文并标注中文，算法名使用首字母缩写；去除了文献引用[ ]和图示标识Fig；采用动态句式如"展现更强协作能力"增强可读性）

热点排行

新闻专题

联系信箱：

粤ICP备09063491号