-
生物通官微
陪你抓住生命科技
跳动的脉搏
《Nature》突破强化学习困境:“Dreamer” 算法开启通用智能新篇章
《Nature》:Mastering diverse control tasks through world models
【字体: 大 中 小 】 时间:2025年04月03日 来源:Nature 50
编辑推荐:
为解决强化学习算法在新任务应用中需大量人力调试超参数的问题,研究人员开展了关于通用强化学习算法的研究。他们提出的 Dreamer 算法在超 150 个任务中表现优异,还首次在 Minecraft 游戏中从无到有收集钻石,推动了强化学习的实际应用。
在人工智能领域,强化学习(Reinforcement Learning)已取得不少成果,像在围棋、Dota 等游戏中计算机能超越人类表现,也是提升大语言模型能力的关键要素。然而,当前强化学习算法存在明显短板。虽然近端策略优化(PPO)算法成为领域标准算法,但面对新的应用领域,如从视频游戏转向机器人任务时,配置算法的超参数需要大量的专业知识和实验,这一脆性问题限制了强化学习在新问题以及计算成本高昂的模型或任务中的应用。开发一种无需重新配置就能掌握新领域的通用算法,成为人工智能发展的关键挑战,也迫切需要解决,以拓展强化学习的实际应用范围。
在此背景下,Google DeepMind 和多伦多大学的研究人员展开深入研究。他们提出的第三代 Dreamer 算法,在固定超参数的情况下,能在众多领域超越专业算法,这一成果发表于《Nature》。该算法的出现,为强化学习领域带来新的突破。
研究人员在开展此项研究时,运用了多项关键技术方法。首先是构建世界模型(World Model),通过自动编码学习感官输入的紧凑表示,并预测未来表示和奖励,以此为基础进行规划。其次,采用了基于归一化、平衡和变换的稳健性技术,保障算法在不同领域稳定学习。再者,运用演员 - 评论家(Actor-Critic)学习框架,演员网络选择行动以最大化回报,评论家网络评估每个结果的价值。
研究结果具体如下:
学习算法:Dreamer 算法由世界模型、评论家网络和演员网络组成。世界模型学习时,通过编码器将感官输入映射为随机表示,序列模型预测未来表示、奖励和剧集延续标志,同时通过最小化预测损失、动力学损失和表示损失来优化参数。评论家学习旨在逼近当前演员行为下每个状态的回报分布,通过最大似然损失进行训练,还采用了如将评论家输出参数化为分类分布等方法稳定学习。演员学习通过熵正则化探索的同时选择最大化回报的行动,采用归一化回报等方式确定合适的探索程度。此外,为应对不同域中信号尺度变化的挑战,采用了对称对数平方误差(symlog squared error)和对称指数双热损失(symexp two-hot loss)等方法进行稳健预测。
评估:研究人员在 8 个领域超 150 个任务中对 Dreamer 算法进行评估,与文献中的最佳方法以及 PPO 算法对比。在 Atari 游戏领域,Dreamer 算法超越强大的 MuZero 算法,且计算资源消耗少;ProcGen 基准测试中,它超过了 PPG 和 Rainbow 等调优专家算法;DMLab 任务里,其性能超越可扩展的 IMPALA 和 R2D2+ 代理,数据效率大幅提升;在 Atari100k 数据效率基准测试、Proprio Control Suite 和 Visual Control Suite 机器人任务基准测试、BSuite 基准测试中,Dreamer 算法均表现出色,达到或超越现有方法。在 Minecraft 游戏收集钻石挑战中,Dreamer 算法在未使用人类数据或自适应课程的情况下,首次成功从无到有收集钻石,而其他对比算法均未做到。
消融实验:通过对稳健性技术和学习信号的消融实验发现,所有稳健性技术都对性能有贡献,其中世界模型目标中的 Kullback–Leibler 平衡和自由比特,以及回报归一化和奖励与价值预测的对称指数双热回归作用较为显著。同时,Dreamer 算法的性能主要依赖于世界模型的无监督重建损失,这与以往主要依赖任务特定学习信号的强化学习算法不同。
缩放属性:研究不同模型大小和重放比率对 Dreamer 算法的影响时发现,随着模型尺寸增大,任务性能提升且数据需求降低;增加梯度步数能减少学习成功行为所需的环境交互次数。这表明 Dreamer 算法在不同模型大小和重放比率下学习稳健,为提升性能提供了可预测的方法。
研究结论表明,Dreamer 算法作为一种通用强化学习算法,凭借固定超参数在广泛领域展现出卓越性能,学习过程稳健,适用于不同的数据和计算预算。它在 Minecraft 游戏中的突破,是人工智能领域的重要里程碑。这一算法为未来研究开辟了新方向,例如从互联网视频中教授智能体世界知识,跨领域学习单一世界模型,助力人工智能体积累更通用的知识和能力,推动强化学习迈向更广泛的实际应用。
知名企业招聘
今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号