
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向不确定性的可扩展换电站安全能量管理:可解释强化学习与数学优化的协同优化策略
【字体: 大 中 小 】 时间:2025年08月10日 来源:Journal of Energy Storage 9.8
编辑推荐:
本文提出了一种集成可解释强化学习(XRL)与数学优化(MO)的双层框架,解决可扩展换电站(BSS)在不确定性环境下的安全能量管理难题。通过XRL实现时序决策的可解释性,结合MO完成空间维度功率分解,显著提升学习效率并适应BSS动态规模。实验表明,该方法在i7-12700 CPU上15分钟内完成3200个充电桩调度,决策路径透明且成本可比。
Highlight
可扩展BSS结构
如图1所示的可扩展BSS结构包含四大核心功能区:换电区、充电区、满电电池(FB)存储区和亏电电池(DB)存储区。换电区为电动汽车提供电池更换服务,充电区实现电池与电网的双向能量流动。当电动汽车抵达换电区时,其DB被移除并转移至DB存储区,同时从FB存储区调取一块FB进行更换。
可扩展BSS模型
工程实践中,每个充电桩配备状态传感器检测电池存在与否,并通过故障检测装置监控充电桩可用性。我们使用二进制变量表示充电桩状态:当充电桩无电池或故障时标记为不可用。
XPPO的概念设计
如第2节所述,上层控制器需输出连续变量并应对不确定性,同时保证决策可解释性与安全性。我们选择近端策略优化(PPO)作为核心算法,其通过裁剪替代目标平衡探索与利用,适用于高维复杂环境。
下层控制器中的MO
下层控制器将上层输出的BSS总功率分配至各充电桩。当上层确定总功率和备用功率后,电力成本与备用收益即固定,而功率分配仅影响电池老化成本。MO模型需满足:(1)充电桩功率总和等于BSS总功率;(2)单桩功率不超过其额定值。
协作算法
如算法1所示,两控制器协作机制为:上层通过XPPO生成BSS总功率和备用功率,后者直接应用于BSS模型,前者传递至MO进行分解。MO的优化结果作为XRL的直接奖励,避免空间维度探索。
数据集与参数设置
BSS系统参数见表1,电池老化系数基于电芯价格7美元/Wh计算。仿真中能源市场与备用市场价格取自PJM,售电价格为购电价格的80%。
结论
我们提出的XRL与MO协同框架结合电池SoC分组方法,实现了不确定环境下可扩展BSS的快速安全调度:(1)双层框架显著提升效率并适应BSS规模变化;(2)上层XRL处理时间维度不确定性,下层MO精准分配空间维度功率。
(注:翻译部分严格遵循专业性要求,保留原文技术术语如PPO、SoC等,并采用生动表述如“裁剪替代目标”“双向能量流动”等,同时去除文献引用标识。)
生物通微信公众号
知名企业招聘