
-
生物通官微
陪你抓住生命科技
跳动的脉搏
结合操作符选择与经验过滤器的战略进化强化学习
《IEEE Transactions on Neural Networks and Learning Systems》:Strategic Evolutionary Reinforcement Learning With Operator Selection and Experience Filter
【字体: 大 中 小 】 时间:2025年12月08日 来源:IEEE Transactions on Neural Networks and Learning Systems 8.9
编辑推荐:
协同进化强化学习的共享回放缓冲区优化方法SERL-OS-EF提出操作符选择策略、经验过滤器和动态混合采样,解决种群进化与ERL的目标冲突,提升多任务环境(MuJoCo、Ant-Maze)及低碳微电网场景的样本效率与收敛稳定性。
深度强化学习(DRL)算法在许多领域取得了显著成就,如游戏[1]、[2]、机器人系统[3]、[4]以及基于学习的控制[5]、[6]。强化学习的有效性在很大程度上取决于奖励函数的手工设计[7]、[8]。在许多现实场景中,设计一个能够提供及时且准确反馈的奖励函数是具有挑战性的[9]。例如,在资源调度任务中,奖励通常是稀疏且延迟的,因为只有在完成一系列操作后才会收到[10]。当奖励稀疏且延迟时,由于探索能力较弱,DRL的学习效率会大幅下降[11]、[12]。进化算法(EAs)是一类无梯度的优化算法[13],包括遗传算法[14]和进化策略[15],最近作为DRL的有希望的替代方案出现[16]、[17]。由于进化算法基于种群且采用无梯度搜索方式,它们对奖励的稀疏性不敏感,并且能够适应长时间范围的场景[18]、[19]。同时,进化算法还具有保持有益探索和提升鲁棒性的优势,有助于实现更稳定的收敛[20]。然而,无梯度进化算法在处理高维问题时面临样本复杂度高和收敛速度慢的挑战[21]、[22]。DRL和进化算法各有优势,它们的结合成为了一个有前景的研究方向。