
-
生物通官微
陪你抓住生命科技
跳动的脉搏
分布式可扩展多智能体强化学习:基于内在-情景双探索机制的协同优化研究
【字体: 大 中 小 】 时间:2025年08月13日 来源:Future Generation Computer Systems 6.2
编辑推荐:
本文提出SIEMA框架,创新性地结合内在-情景双探索机制(CEIR+EER)和分布式训练架构,解决了多智能体强化学习(MARL)中协同探索与数据效率两大核心难题。通过协同探索内在奖励(CEIR)激励多维度探索行为,结合情景探索回放(EER)实现样本高效利用,在星际争霸II微操基准测试中显著超越现有SOTA方法(如QMIX、MAVEN),为复杂协同任务提供突破性解决方案。
Highlight
SIEMA框架通过两大创新模块重塑多智能体探索范式:协同探索内在奖励(CEIR)整合新颖性、最优距离和协同探索三要素,驱动智能体形成主动协作行为;情景探索回放(EER)在情景层级重组经验样本,突破传统回放缓冲区的利用率瓶颈。实验证明该双引擎机制能使智能体在复杂环境中实现"探索-利用"的黄金平衡。
Method
方法架构遵循四大原则:1)保持与QMIX相同的Qjt单调性假设;2)全局状态仅用于训练,决策时仅依赖个体观测历史;3)基于值的离策略(off-policy)协同MARL框架;4)完全基于模型无关(model-free)的强化学习设定。核心创新CEIR模块通过三重奖励设计:状态新颖性奖励(基于伪计数模型)、最优策略距离奖励(衡量当前与最优Q值的偏差)、协同探索奖励(基于其他智能体的探索轨迹熵)。
Experiments
在星际争霸II微操基准(SMAC)的20种战役场景中,SIEMA以绝对优势刷新性能记录。特别在"3s_vs_5z"等高难度不对称对抗任务中,胜率较基线方法提升47.3%。消融实验证实:移除CEIR导致探索效率下降32%,禁用EER使样本利用率降低41%,分布式架构则将训练速度提升6.8倍。
Conclusion
本研究突破性地将内在激励与情景回放机制融合,构建出首个支持分布式扩展的MARL框架。该成果不仅为星际争霸等即时战略游戏提供新解法,更为智能交通控制(参见Introduction部分应用案例)等现实世界协同决策系统开辟了新路径。未来工作将聚焦于探索奖励的动态权重调节机制。
生物通微信公众号
知名企业招聘