结合操作符选择与经验过滤器的战略进化强化学习

《IEEE Transactions on Neural Networks and Learning Systems》:Strategic Evolutionary Reinforcement Learning With Operator Selection and Experience Filter

【字体: 时间:2025年12月08日 来源:IEEE Transactions on Neural Networks and Learning Systems 8.9

编辑推荐:

  协同进化强化学习的共享回放缓冲区优化方法SERL-OS-EF提出操作符选择策略、经验过滤器和动态混合采样,解决种群进化与ERL的目标冲突,提升多任务环境(MuJoCo、Ant-Maze)及低碳微电网场景的样本效率与收敛稳定性。

  

摘要:

共享回放缓冲区是进化强化学习(ERL)中协同作用的核心。现有方法忽视了进化算法中的种群进化与ERL之间的目标冲突,导致回放缓冲区的质量较差。在本文中,我们提出了一种具有操作符选择和经验过滤功能的策略性ERL算法(SERL-OS-EF),从三个方面解决目标冲突问题并提升协同效果:1)提出了一种操作符选择策略,以提高所有个体的性能,从而从根本上提升种群生成的经验质量;2)引入了经验过滤机制,用于筛选从种群中获取的经验,保持缓冲区的长期高质量;3)采用动态混合采样策略,提高RL代理从缓冲区中学习的效率。在四个MuJoCo运动环境和三个具有欺骗性奖励的Ant-Maze环境中的实验表明,所提出方法具有优越性。此外,该方法在实际应用中的有效性也在低碳多能源微电网(MEMG)能源管理任务中得到了验证。

引言

深度强化学习(DRL)算法在许多领域取得了显著成就,如游戏[1]、[2]、机器人系统[3]、[4]以及基于学习的控制[5]、[6]。强化学习的有效性在很大程度上取决于奖励函数的手工设计[7]、[8]。在许多现实场景中,设计一个能够提供及时且准确反馈的奖励函数是具有挑战性的[9]。例如,在资源调度任务中,奖励通常是稀疏且延迟的,因为只有在完成一系列操作后才会收到[10]。当奖励稀疏且延迟时,由于探索能力较弱,DRL的学习效率会大幅下降[11]、[12]。进化算法(EAs)是一类无梯度的优化算法[13],包括遗传算法[14]和进化策略[15],最近作为DRL的有希望的替代方案出现[16]、[17]。由于进化算法基于种群且采用无梯度搜索方式,它们对奖励的稀疏性不敏感,并且能够适应长时间范围的场景[18]、[19]。同时,进化算法还具有保持有益探索和提升鲁棒性的优势,有助于实现更稳定的收敛[20]。然而,无梯度进化算法在处理高维问题时面临样本复杂度高和收敛速度慢的挑战[21]、[22]。DRL和进化算法各有优势,它们的结合成为了一个有前景的研究方向。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号