基于相对熵正则化异步更新SAC算法的微电网光伏与负荷通信故障经济调度研究
《IEEE Potentials》:Economic dispatch in microgrids with photovoltaic and load communication failures using deep reinforcement learning with relative entropy regularized asynchronous update
【字体:
大
中
小
】
时间:2025年12月09日
来源:IEEE Potentials CS1.3
编辑推荐:
本文针对微电网中光伏和负荷数据采集终端因通信故障导致数据丢失的问题,提出了一种结合相对熵正则化和异步更新策略的深度强化学习算法(RER-AU-SAC)。研究通过预测模型补偿缺失数据,利用相对熵正则化保持策略稳定性,并在通信恢复后使用实际历史数据异步更新奖励函数。结果表明,该方法显著提高了光伏和负荷通信故障下的经济调度效率,为微电网可靠运行提供了新思路。
随着能源互联网的快速发展,微电网作为分布式电源的高级形态,在现代电力系统中扮演着越来越重要的角色。微电网通常由不可调度的分布式能源(如光伏)、可调度的分布式发电机(如微型燃气轮机)、储能系统和负荷组成,构成一个小型自治电力系统。然而,微电网的供需平衡具有高度不确定性,特别是光伏等可再生能源的间歇性和波动性给经济调度带来了巨大挑战。
更棘手的是,微电网中的数据采集终端常常面临通信故障问题。负荷和光伏系统的数据传输通常采用无线通信和低带宽有线通信技术,这些技术虽然能够满足广域分布设备的通信需求并降低建设成本,但容易受到远距离传输、障碍物和电磁干扰的影响,导致信号衰减和丢失。当通信故障发生时,关键的状态观测数据无法获取,这会严重影响经济调度的准确性,进而威胁微电网的稳定运行。
传统的优化方法如随机优化、机会约束规划等虽然在一定程度上能够处理不确定性,但这些方法通常基于历史数据和预测信息,在动态实时的微电网环境中适用性有限。商业求解器如Gurobi等在静态优化问题上表现优异,但难以应对快速变化的环境条件和实时决策需求。
深度强化学习(DRL)算法近年来在微电网经济调度中展现出巨大潜力。通过智能体与环境的持续交互,DRL能够逐步学习并获取最优决策策略,动态调度分布式能源资源和储能系统,以最小化能源成本,提高系统的经济性和可靠性。DRL不仅能够适应复杂多变的电力市场环境,还能有效处理可再生能源的不确定性和间歇性。
然而,在通信故障导致数据丢失的场景下,DRL算法面临三个关键挑战:首先,缺失的状态信息需要通过预测算法进行补偿,但预测准确性直接影响调度性能;其次,预测误差的累积会扭曲强化学习中的奖励函数,影响策略优化效果;最后,预测误差会削弱DRL算法中调度策略的可靠性,导致策略优化过程出现收敛问题。
针对这些挑战,刘文成和毛志忠教授团队在发表于《CSEE Journal of Power and Energy Systems》的研究中,提出了一种创新的深度强化学习算法——相对熵正则化异步更新软演员评论家算法(RER-AU-SAC)。该算法通过三个核心创新点系统解决了通信故障下的微电网经济调度问题。
研究人员采用的关键技术方法包括:首先构建微电网经济调度的马尔可夫决策过程模型,将调度问题转化为状态空间、动作空间和奖励函数的数学表述;其次开发基于双向长短期记忆网络和混合负载预测算法的数据补全模型,用于在通信故障期间估计缺失的光伏和负荷数据;然后设计相对熵正则化策略,在策略更新过程中约束新旧策略之间的差异,增强算法稳定性;最后实现异步奖励更新机制,在通信恢复后使用实际历史数据重新计算累积奖励,修正预测模型引入的误差。
系统建模方面,研究以山东烟台某实际运行的微电网为案例,该系统包含200kVA变压器和188kW光伏容量。如图1所示,微电网结构包括光伏发电系统、微型燃气轮机、电池储能系统和常规负荷。目标函数旨在最小化日运行成本,具体包含微型燃气轮机成本、储能成本以及与电网交易成本。
目标函数数学表达为min∑t=1T(CMT,t+CES,t+CM,t),其中CMT,t=[aPMT,t+b]Δt表示微型燃气轮机成本,CES,t=QES[|PES,tdis|/η+PES,tchη]Δt为储能成本,CM,t=λt[PM,tbuy-PM,tsell]Δt代表与电网交易成本。约束条件包括设备功率限制、储能容量限制以及功率平衡约束。
在强化学习建模部分,研究将微电网框架表述为马尔可夫决策过程(MDP)。状态空间S包含微电网所有潜在状态,表示为st=[PMT,t,PLoad,t,PPv,t,EESt,prt];动作空间A定义为at=[ΔPMT,t,ΔPES,tch,ΔPES,tdis],表示在每个状态下的可行操作;奖励函数设计为rt=-(CMT,t+CES,t+CM,t),以最小化微电网运行成本为目标。
问题分析显示,如图2所示,当通信故障发生时,负荷PLoad,t和光伏发电PPv,t数据无法获取,导致状态向量不完整,表示为s?t=[PMT,t,NaN,NaN,PES,tch,PES,tdis,prt]。这种不完整状态观测会导致Q函数估计出现偏差,进而影响策略优化效果。
算法设计上,RER-AU-SAC基于软演员评论家(SAC)算法框架,引入两个关键技术创新。异步更新策略(AU)在通信恢复后,使用真实历史数据重新计算前d个时间步的奖励,修正累积误差。具体而言,当状态恢复后,系统会基于真实状态重新计算奖励rt和rt+k,并更新策略。累积回报计算公式为Gt=∑k=0dγkrt+k,其中γ为折扣因子。
相对熵正则化(RER)通过在策略更新过程中引入KL散度项,约束新旧策略之间的差异,增强策略稳定性。修改后的策略梯度计算为包含相对熵正则化项的形式,其中λ控制正则化项的权重,KL[πnew(a|st)∥πold(a|st)]衡量新旧策略之间的差异。
图3展示了算法的整体流程:首先获取当前状态信息并检查数据传输是否中断;如果发生中断,使用预测模型估计当前状态得到s?t;否则直接使用真实状态st;在真实状态恢复后,重新计算先前即时奖励,并基于真实状态使用相对熵正则化进行策略调整,立即更新策略。
实验设置方面,研究使用Python作为主要编程语言,PyTorch用于深度学习任务。硬件配置包括4060Ti GPU和Intel(R) Core(TM) i5-13400F CPU。数据集包含微电网一整年的运行数据,采样间隔为15分钟,每个episode定义为一天,包含96个时间步(T=96)。
训练评估结果表明,RER-AU-SAC算法在训练过程中表现出良好的稳定性。如图5所示,在训练初期,由于探索阶段的影响,奖励存在较大波动;但随着训练进行,特别是在1500个episode后,奖励波动显著减小并趋于稳定,表明算法有效收敛到最优策略。
消融研究设计了三个变体算法进行对比实验:去除相对熵正则化的RER-AU-SAC without RER、去除异步更新策略的RER-AU-SAC without Asynchronous Update、以及作为基线的SAC算法。实验结果清晰展示了各组件的重要性。
在测试日选择中,研究人员特意选择了故障持续时间最长为43个时间步(10.75小时)的日期进行性能评估。图6显示了测试日的原始数据,其中红色区域表示缺失的负荷和光伏数据;图7则展示了经过预测算法补全后的数据。
调度结果分析显示,RER-AU-SAC算法(图8)在数据丢失期间能够维持合理的电网交换功率,并在低价时段增加储能充电操作,微型燃气轮机也调整到适当水平以确保系统稳定运行。相比之下,RER-SAC算法(图9)由于缺乏异步更新策略,在数据恢复后的时段表现稍差;AU-SAC算法(图10)缺少相对熵正则化约束,策略波动较大;SAC算法(图11)调度性能最差,充放电策略波动大,无法在电价上升期间有效放电。
成本对比结果显示,RER-AU-SAC在所有时间段都能更有效地降低成本。具体而言,对于短期丢失(1-5个时间步),平均成本降低分别为1.27%、0.53%和0.98%;中期丢失(6-20个时间步)平均成本降低2.47%、0.67%和1.41%;长期丢失(超过20个时间步)效果最显著,成本分别降低8.82%、2.96%和6.92%。这表明RER-AU-SAC不仅在处理短中期故障时具有经济优势,在长时间数据丢失和高电价波动场景下表现尤为突出。
算法对比实验将RER-AU-SAC与MPC、PSO、GA、ACM-PSO、PALO、DDPG和TD3等传统优化算法和强化学习算法进行了全面比较。结果如表IV所示,RER-AU-SAC在所有场景下都保持最低成本,且计算时间远短于传统优化算法,在实际运行中仅需毫秒级时间即可完成决策,这得益于强化学习算法的离线训练、在线应用特性。
研究结论表明,相对熵正则化异步更新软演员评论家算法有效解决了微电网在负荷和光伏通信故障下的经济调度问题。通过整合相对熵正则化和异步奖励更新机制,算法成功应对了数据丢失带来的挑战。与传统算法相比,RER-AU-SAC不仅运行速度最快,在通信故障期间仍能保持高经济效率。
该研究的创新价值在于首次将相对熵正则化和异步更新策略系统性地引入微电网经济调度领域,为解决通信故障下的数据丢失问题提供了完整的技术框架。研究成果对提升微电网在复杂通信环境下的鲁棒性和经济性具有重要实践意义,为未来智能电网的发展提供了新的技术路径。
然而,研究也存在一定局限性,如基于特定工程案例的数据集和实验环境,未来需要在更复杂多变的环境中验证算法的适应性。此外,当前研究仅关注负荷和光伏系统的通信故障,未来可扩展至储能设备和微型燃气轮机相关的数据采集与控制问题,为微电网经济调度和系统稳定性提供更全面的增强方案。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号