面向不确定性的可扩展换电站安全能量管理:可解释强化学习与数学优化的协同优化策略

【字体: 时间:2025年08月10日 来源:Journal of Energy Storage 9.8

编辑推荐:

  本文提出了一种集成可解释强化学习(XRL)与数学优化(MO)的双层框架,解决可扩展换电站(BSS)在不确定性环境下的安全能量管理难题。通过XRL实现时序决策的可解释性,结合MO完成空间维度功率分解,显著提升学习效率并适应BSS动态规模。实验表明,该方法在i7-12700 CPU上15分钟内完成3200个充电桩调度,决策路径透明且成本可比。

  

Highlight

可扩展BSS结构

如图1所示的可扩展BSS结构包含四大核心功能区:换电区、充电区、满电电池(FB)存储区和亏电电池(DB)存储区。换电区为电动汽车提供电池更换服务,充电区实现电池与电网的双向能量流动。当电动汽车抵达换电区时,其DB被移除并转移至DB存储区,同时从FB存储区调取一块FB进行更换。

可扩展BSS模型

工程实践中,每个充电桩配备状态传感器检测电池存在与否,并通过故障检测装置监控充电桩可用性。我们使用二进制变量表示充电桩状态:当充电桩无电池或故障时标记为不可用。

XPPO的概念设计

如第2节所述,上层控制器需输出连续变量并应对不确定性,同时保证决策可解释性与安全性。我们选择近端策略优化(PPO)作为核心算法,其通过裁剪替代目标平衡探索与利用,适用于高维复杂环境。

下层控制器中的MO

下层控制器将上层输出的BSS总功率分配至各充电桩。当上层确定总功率和备用功率后,电力成本与备用收益即固定,而功率分配仅影响电池老化成本。MO模型需满足:(1)充电桩功率总和等于BSS总功率;(2)单桩功率不超过其额定值。

协作算法

如算法1所示,两控制器协作机制为:上层通过XPPO生成BSS总功率和备用功率,后者直接应用于BSS模型,前者传递至MO进行分解。MO的优化结果作为XRL的直接奖励,避免空间维度探索。

数据集与参数设置

BSS系统参数见表1,电池老化系数基于电芯价格7美元/Wh计算。仿真中能源市场与备用市场价格取自PJM,售电价格为购电价格的80%。

结论

我们提出的XRL与MO协同框架结合电池SoC分组方法,实现了不确定环境下可扩展BSS的快速安全调度:(1)双层框架显著提升效率并适应BSS规模变化;(2)上层XRL处理时间维度不确定性,下层MO精准分配空间维度功率。

(注:翻译部分严格遵循专业性要求,保留原文技术术语如PPO、SoC等,并采用生动表述如“裁剪替代目标”“双向能量流动”等,同时去除文献引用标识。)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号