
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于反事实值分解的协作多智能体强化学习:三明治值分解框架Comix的提出与应用
【字体: 大 中 小 】 时间:2025年06月17日 来源:Neural Networks 6.0
编辑推荐:
针对多智能体强化学习(MARL)中因最优联合动作值近似偏差导致的分解值函数(FVF)更新失真问题,研究者提出Comix算法。通过构建三明治值分解框架(SVDF),利用正交最优响应生成上下界约束FVF更新,结合注意力机制实现线性复杂度计算。理论证明其满足个体-全局最大化(IGM)原则,实验表明在非单调收益任务中优于现有方法,为复杂协作决策提供新思路。
在自动驾驶、群体控制等群体决策任务需求激增的背景下,协作多智能体强化学习(MARL)成为研究热点。传统方法如VDN和QMIX通过构建加性或单调分解值函数(FVF)实现多智能体协作,但这类方法存在根本性局限——无法有效处理非单调收益场景。虽然后续研究通过放松对联合动作值函数(JVF)的严格一致性要求(如QTRAN、Weighted Qmix)扩展了应用范围,但这些方法仍依赖"最优近似"假设:用贪婪联合动作值替代真实最优联合动作值更新FVF。然而研究表明,贪婪联合动作值的显著偏差会导致FVF更新方向错误,严重阻碍学习效率。
为解决这一关键问题,研究人员提出Comix算法。该方法创新性地构建三明治值分解框架(SVDF),通过正交最优响应生成上下界来约束FVF更新,避免直接使用存在偏差的贪婪联合动作值。特别地,引入注意力机制的反事实值函数(CVF)设计,使算法在保持线性时间复杂度的同时确保计算精度。理论分析证明该方法满足个体-全局最大化(IGM)原则,且实现条件比现有方法更易满足。在非对称单步矩阵游戏、离散捕食者-猎物游戏和星际争霸多智能体挑战赛(SMAC)的实验中,Comix展现出显著优于对比算法的学习效率和最终性能。
关键技术方法包括:1) 构建SVDF框架实现上下界约束的FVF更新;2) 设计基于注意力机制的CVF计算正交最优响应上界;3) 采用反事实推理消除最优近似偏差;4) 通过非对称单步矩阵游戏验证算法在非单调场景的有效性;5) 在Dec-POMDP模型下进行多环境验证。
研究结果:
结论与意义:该研究突破性地解决了MARL领域长期存在的"最优近似偏差"难题。理论层面,SVDF框架为值分解方法提供了新的数学基础;实践层面,Comix在保持线性复杂度的同时实现精确的非单调值分解,为复杂现实场景中的多智能体系统决策提供可靠工具。值得注意的是,该方法不依赖特定FVF结构,可与现有架构灵活结合,展现出广阔的拓展应用前景。论文成果发表于《Neural Networks》,第一作者Kai Liu的贡献包含方法论构建与实验验证,通讯作者Tianxian Zhang负责理论证明与框架设计。
生物通微信公众号
知名企业招聘