
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于状态慢特征软最大值Q值正则化的离线强化学习算法研究
【字体: 大 中 小 】 时间:2025年08月04日 来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
本文推荐:该研究提出状态慢特征软最大值Q值正则化(SQR)方法,通过慢特征表示学习(SFA)提取状态轨迹动态信息,结合软最大值(softmax)算子平滑Q值估计,有效解决离线强化学习(Offline RL)中的分布偏移和Q值高估问题。在D4RL基准测试中,导航任务性能最高提升71.1%。
Highlight
我们设计的状态慢特征表示学习模型能提取关键动态信息,提升离线强化学习中状态表示的稳定性;提出的基于软最大值的Q值正则化机制可有效缓解分布偏移导致的价值高估问题。
Method
为解决离线强化学习中Q值高估的核心挑战,SQR方法创新性地将慢特征表示学习与软最大值正则机制相结合。该框架包含三个关键模块:1)状态慢特征表示学习——通过慢特征分析(Slow Feature Analysis, SFA)建模当前与未来状态的动态相关性,提取缓慢变化的鲁棒特征;2)基于状态慢特征的软最大值算子——利用特征时序稳定性约束Q值更新过程;3)软最大值Q值正则化——在保守Q学习(CQL)约束基础上引入softmax平滑,实现更精确的价值估计。
Experiments
在D4RL基准测试中,SQR展现出显著优势:1)在15个运动控制数据集中7个获得最高分;2)导航任务性能提升幅度达2.0%-71.1%;3)消融实验证实慢特征学习使Q值标准差降低18.3%。
Discussions
尽管计算效率存在局限,但该方法在医疗决策等安全敏感领域的离线部署潜力显著,其状态表示稳定性尤其适合处理医疗时序数据中的稀疏奖励问题。
Conclusions
SQR通过慢特征表示学习捕获长时序轨迹的动态特性,结合软最大值正则化实现Q值平滑估计,为连续空间中的运动控制和稀疏奖励导航问题提供了创新解决方案。
生物通微信公众号
知名企业招聘