
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于径向距离的概念漂移检测与多智能体协同强化学习的价值分解优化方法
【字体: 大 中 小 】 时间:2025年08月08日 来源:Neurocomputing 6.5
编辑推荐:
本文提出了一种创新性的价值分解多策略优化(VDMPO)方法,通过构建包含智能体网络(actor-critic框架)和上层混合网络的新型架构,解决了协作型多智能体强化学习(MARL)中任务性能低下和奖励设计困难的核心问题。该方法首次实现了联合状态价值的非线性分解与基于价值拟合的团队奖励分配机制,显著提升了MADDPG、MAPPO等主流算法在连续/离散动作空间任务中的协作效率。实验表明,VDMPO在无人机集群监控(MDM)和多智能体粒子环境(MPE)中的表现超越QMIX、MATD3等SOTA算法。
亮点
低协作效率和任务表现不佳一直是协作型多智能体强化学习(MARL)领域的重大挑战。
相关概念
强化学习(RL)的学习过程是让执行者(actor)通过与环境(env)交互,借助奖励机制逐渐提升智能水平。在此过程中,环境和奖励机制是预设且不可更改的,只有执行者能够自我调整。
算法结构设计
本文提出的VDMPO算法框架如图1所示:
该架构包含上层混合网络和底层智能体网络两部分,通过一组智能体网络、混合网络和超网络实现。每个智能体拥有独立的actor-critic网络——actor网络接收局部观测值输出动作,critic网络则...
实验
为验证VDMPO性能,我们在多无人机监控(MDM)和多智能体粒子环境(MPE)两个经典基准测试中,与QMIX、MADDPG、MATD3和MAPPO等主流MARL算法进行了对比。
结论
本研究聚焦基于联合价值分解的协作型多智能体强化学习,提出的VDMPO算法能同时支持离散/连续动作空间任务,通过价值拟合的团队奖励分配机制有效解决了协作MARL中个体奖励设计难题。相较于MAPPO,引入的特殊目标价值网络显著提升了训练稳定性。
(注:根据要求已去除文献引用标识[ ]和图示标识Fig,专业术语保留英文缩写并采用生动表述,如"执行者"替代"智能体"增强可读性)
生物通微信公众号
知名企业招聘