基于复兴变换的强化学习安全控制:流形几何框架与策略迁移机制

【字体: 时间:2025年08月09日 来源:Neurocomputing 6.5

编辑推荐:

  本文提出了一种创新的强化学习(RL)安全控制方法,通过建立复兴变换(revived transformation)的微分流形几何框架,实现了控制器从安全源系统向危险目标系统的可靠迁移。该研究揭示了状态流形间的微分同胚映射关系,构建了向量场与单参数变换群的结构化关联,为安全关键领域的RL应用提供了理论保障。

  

Highlight

贡献亮点:本研究奠定了基于复兴变换的迁移学习方法的几何基础。首先将欧几里得状态空间视为一般微分流形,证明复兴变换在源系统和目标系统的状态流形间建立了微分同胚映射。该映射诱导了两个流形上向量场的结构化关系,并进一步建立了单参数变换群之间的关联。

Transfer Learning 迁移学习

首先介绍迁移学习的标准定义,包含四个要素:目标域DT、目标任务TT、源域DS和源任务TS。其中DT和DS分别表示目标域和源域的可用数据,而fT和fS代表需要从这些数据中学习的函数。

Geometric Interpretation of Revived Transformation-based Policy Transfer 基于复兴变换策略迁移的几何解释

本节建立变换基策略迁移方法的几何基础。给定微分同胚映射φ及其输入变换ψ,目标系统(2)在映射对(φ,ψ)下被等价转化为系统(4)。其中fφ和gφ分别表示新坐标系下转换系统的漂移矩阵和输入矩阵。

Algorithm Implementation 算法实现

本节展示完整的迁移学习算法实现,包含源任务和目标任务两个阶段。源任务通过直接交互学习经验性稳定无约束源系统(3)的RL策略(源策略);目标任务则基于学习到的RL策略构建目标系统的迁移策略。算法设计基于柔性演员-评论家(SAC)框架。

Evaluation of Simulation Results 仿真结果评估

通过四轮转向系统车辆(4WS)的横向稳定性控制任务进行仿真验证。系统动力学方程中,x表示系统状态向量,u代表控制输入。仿真结果表明,该方法能有效保证安全约束下的控制性能。

Conclusion 结论

本研究建立了基于复兴变换的迁移学习控制方法的几何基础,揭示了变换公式与空间几何结构的关联。证明复兴变换不仅在目标系统与源系统的状态流形间建立映射,更诱导了这些流形上向量场与单参数变换群的结构化关系。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号