基于多智能体强化学习的部分可观测车联网协同交通信号控制研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月01日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　本文提出创新性多智能体强化学习(MARL)框架MAPOLight，通过双层架构（上层均值聚合降维/下层深度RL优化）解决V2I环境下部分CAV可观测性(CAV P-Rate≥5%)的交通信号协同控制难题，实验证明其在网格/真实路网中较传统方法提升23.1%通行效率，具备事故响应与异构交叉口自适应能力。

Highlight

本研究亮点在于开发了MAPOLight系统——一个在网联自动驾驶车(CAV)渗透率低至5%时仍能收敛的双层强化学习框架。通过独创的"观测关联指标"动态关联CAV渗透率与算法稳定性，配合均值聚合降维技术，成功突破传统方法在部分可观测场景下的性能瓶颈。

Methodological Innovation

方法学创新体现在：

上层协作层采用"状态-动作均值聚合"协议，将高维协调空间压缩至原1/8；
下层优化层兼容多种深度RL算法(如DQN/PPO)，通过动态权重机制使信号灯能智能识别拥堵热点；
相位切换算法支持异构交叉口的个性化配时方案，就像为每个路口定制"交通激素调节方案"。

Real-world Validation

在SUMO仿真中，当CAV渗透率达20%时：

• 4×4网格路网延误降低31.2%

• 蒙哥马利县真实路网通行量提升18.7%

• 事故响应速度较传统方法快2.3倍

特别值得注意的是，系统展现出类似"免疫记忆"的特性——学习过的拥堵模式再次出现时能快速响应。

Conclusion

MAPOLight为智慧城市提供了经济高效的解决方案，其模块化设计允许像"积木"般灵活组合不同RL算法。未来可探索CAV与人类驾驶混行场景下的群体智能涌现现象，就像研究神经系统中的突触可塑性机制。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号