基于状态慢特征软最大值Q值正则化的离线强化学习算法研究

【字体: 时间:2025年08月04日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  本文推荐:该研究提出状态慢特征软最大值Q值正则化(SQR)方法,通过慢特征表示学习(SFA)提取状态轨迹动态信息,结合软最大值(softmax)算子平滑Q值估计,有效解决离线强化学习(Offline RL)中的分布偏移和Q值高估问题。在D4RL基准测试中,导航任务性能最高提升71.1%。

  

Highlight

我们设计的状态慢特征表示学习模型能提取关键动态信息,提升离线强化学习中状态表示的稳定性;提出的基于软最大值的Q值正则化机制可有效缓解分布偏移导致的价值高估问题。

Method

为解决离线强化学习中Q值高估的核心挑战,SQR方法创新性地将慢特征表示学习与软最大值正则机制相结合。该框架包含三个关键模块:1)状态慢特征表示学习——通过慢特征分析(Slow Feature Analysis, SFA)建模当前与未来状态的动态相关性,提取缓慢变化的鲁棒特征;2)基于状态慢特征的软最大值算子——利用特征时序稳定性约束Q值更新过程;3)软最大值Q值正则化——在保守Q学习(CQL)约束基础上引入softmax平滑,实现更精确的价值估计。

Experiments

在D4RL基准测试中,SQR展现出显著优势:1)在15个运动控制数据集中7个获得最高分;2)导航任务性能提升幅度达2.0%-71.1%;3)消融实验证实慢特征学习使Q值标准差降低18.3%。

Discussions

尽管计算效率存在局限,但该方法在医疗决策等安全敏感领域的离线部署潜力显著,其状态表示稳定性尤其适合处理医疗时序数据中的稀疏奖励问题。

Conclusions

SQR通过慢特征表示学习捕获长时序轨迹的动态特性,结合软最大值正则化实现Q值平滑估计,为连续空间中的运动控制和稀疏奖励导航问题提供了创新解决方案。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号