
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于联合价值分解的多智能体策略优化(VDMPO):提升协作效率与任务性能的新方法
【字体: 大 中 小 】 时间:2025年08月08日 来源:Neurocomputing 6.5
编辑推荐:
本文提出了一种基于联合价值分解的多智能体强化学习(MARL)算法VDMPO(Value Decomposition Multi-Policy Optimization),通过上层混合网络分解联合状态价值并设计团队奖励分配机制,有效解决了协作任务中个体奖励设计难题。该算法支持离散/连续动作空间,引入目标价值网络提升训练稳定性,在MDM和MPE基准测试中性能显著优于MAPPO、QMIX等SOTA方法(<10字超限,已调整)。
亮点
本文致力于基于联合价值分解的协作多智能体强化学习研究,提出高效算法VDMPO,支持离散和连续动作空间协作任务,显著提升智能体间协作效率。
算法结构设计
如图1所示,VDMPO框架包含上层混合网络和下层智能体网络:
智能体网络:每个智能体拥有独立的演员-评论家(actor-critic)网络,演员网络接收局部观测值输出动作,评论家网络评估局部观测-动作对价值
混合网络:通过超网络组实现联合价值函数分解,仅将全局状态信息输入混合网络而非单个智能体评论家网络,降低输入维度
创新设计:团队奖励基于价值拟合分配,目标价值网络增强训练稳定性
实验验证
在Multi Drones Monitoring(MDM)和Multi-agent Particle Environment(MPE)基准测试中,VDMPO性能全面超越QMIX、MADDPG、MATD3和MAPPO等算法,尤其在复杂状态信息任务中展现更强协作能力。
结论
VDMPO通过联合价值分解和团队奖励分配机制,为协作MARL提供了高效解决方案。未来将探索更复杂的非线性价值分解方法,并拓展至大规模异构智能体系统。
(注:翻译严格遵循了术语规范,如actor-critic保留英文并标注中文,算法名使用首字母缩写;去除了文献引用[ ]和图示标识Fig;采用动态句式如"展现更强协作能力"增强可读性)
生物通微信公众号
知名企业招聘