
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多策略优化的价值分解深度强化学习在车辆路径规划中的应用
【字体: 大 中 小 】 时间:2025年08月08日 来源:Neurocomputing 6.5
编辑推荐:
本文提出了一种创新性的价值分解多策略优化(VDMPO)方法,通过结合基于行动者-评论家(actor-critic)框架的智能体网络和上层混合网络,解决了协作多智能体强化学习(MARL)中任务性能低效和奖励分配困难的难题。该方法支持离散/连续动作空间任务,通过团队奖励的价值拟合机制提升协作效率,实验表明其在多无人机监控(MDM)等场景中显著优于主流算法(如MAPPO、QMIX)。
亮点
本文提出的VDMPO算法通过双层网络架构(上层混合网络+底层智能体网络)实现了联合状态价值的动态分解,其核心创新点包括:1)采用特殊目标价值网络提升训练稳定性;2)仅将全局状态输入混合网络而非单个智能体的评论家网络,显著降低输入维度。
算法结构设计
如图1所示,VDMPO框架包含:
智能体网络:每个智能体拥有独立的行动者(接收局部观测oi输出动作ai)和评论家网络
混合网络:通过超网络组将联合Q值tot非线性分解为个体Q值
奖励分配机制:基于价值拟合自动分配团队奖励,避免人工设计个体奖励的偏差
实验验证
在MDM和MPE场景中,VDMPO相比QMIX(非线性值分解)、MADDPG(集中式训练)等算法:
平均任务完成率提升23.6%
训练稳定性提高37.2%(通过目标网络延迟更新实现)
结论
VDMPO为复杂状态下的多智能体协作提供了通用解决方案,其价值分解机制可扩展至医疗机器人协同手术等生命科学领域,未来将探索在部分可观测马尔可夫决策过程(POMDP)中的应用。
生物通微信公众号
知名企业招聘