基于相对熵正则化异步更新SAC算法的微电网光伏与负荷通信故障经济调度研究
《CSEE Journal of Power and Energy Systems》:Economic dispatch in microgrids with photovoltaic and load communication failures using deep reinforcement learning with relative entropy regularized asynchronous update
【字体:
大
中
小
】
时间:2025年12月11日
来源:CSEE Journal of Power and Energy Systems 5.9
编辑推荐:
本文针对微电网中光伏和负荷数据采集终端因通信故障导致数据丢失的问题,提出了一种结合相对熵正则化和异步更新策略的深度强化学习算法(RER-AU-SAC)。研究通过预测模型补偿缺失数据,利用相对熵正则化保持策略稳定性,并在通信恢复后使用实际历史数据异步更新奖励函数。结果表明,该方法显著提高了光伏和负荷通信故障下的经济调度效率,为微电网安全稳定运行提供了新思路。
在现代能源互联网建设中,微电网作为分布式电源的高级形态,正发挥着越来越重要的作用。它通过整合光伏(PV)等不可调度分布式能源、微燃气轮机(MT)等可调度分布式发电机、储能系统(ES)及负荷,构成小型自治电力系统。然而,微电网的稳定运行高度依赖于可靠的数据传输,而长期传输距离、障碍物和电磁干扰等因素常常导致数据采集终端通信故障,造成关键数据丢失,严重影响经济调度的准确性。
目前,大多数电力系统研究都假设通信网络完美无缺,但现实中通信故障不可避免。尤其对于分布范围广的光伏和负荷设备,为降低成本常采用无线通信和低带宽有线通信技术,这些技术更易受信号衰减和丢失的影响。数据丢失不仅会破坏供需平衡,还会导致调度策略的可靠性下降,给微电网稳定运行带来严峻挑战。
传统的不确定性优化方法,如随机优化、机会约束规划等,通常基于历史数据和预测信息,商业求解器(如Gurobi)在静态优化问题中表现良好,但在动态实时微电网环境中适用性有限。这些方法难以处理不确定性并满足实时决策需求,特别是在条件快速变化的情况下。
深度强化学习(DRL)算法为这一问题提供了新的解决思路。通过智能体与环境的持续交互,DRL能够逐步学习并获得最优决策策略,动态调度分布式能源资源和储能系统,以最小化能源成本,提高系统的经济性和可靠性。它不仅能够适应复杂多变的电力市场环境,还能有效应对可再生能源的不确定性和间歇性。
然而,在微电网经济调度中应用DRL面临三个关键挑战:首先,通信故障导致的数据丢失使得状态信息不完整,直接影响策略评估和更新;其次,预测算法虽然可以补偿缺失数据,但其准确性直接影响调度性能,预测误差的累积会扭曲强化学习中的奖励函数;最后,预测误差会削弱DRL算法中调度策略的可靠性,导致策略优化过程中出现收敛问题。
针对这些挑战,刘文成和毛志忠教授在《CSEE Journal of Power and Energy Systems》上发表的研究提出了一种创新解决方案——相对熵正则化异步更新软演员评论家算法(RER-AU-SAC)。该算法通过三重创新设计,有效应对了微电网通信故障下的经济调度问题。
研究人员采用了几项关键技术方法:首先构建了微电网系统的数学模型,将经济调度问题建模为马尔可夫决策过程(MDP),包含状态空间、动作空间、状态转移概率和奖励函数;其次开发了预测算法来处理数据丢失问题,使用双向长短期记忆网络(Bi-LSTM)进行光伏发电预测,采用混合负载预测算法进行负荷预测;然后设计了异步更新策略(AU),在通信恢复后使用实际历史数据重新计算奖励,修正预测模型引入的累积误差;最后引入相对熵正则化(RER)策略,通过控制新旧策略之间的KL散度来减少策略波动,增强策略更新的稳定性。
研究以山东烟台某实际运行的微电网为案例,该系统包含200kVA变压器和188kW光伏容量。微电网结构包括光伏发电系统、微燃气轮机、电池储能系统和常规负荷。
目标函数是最小化日常运营成本,包含微燃气轮机成本、储能成本、需求响应成本和电网交易成本。约束条件包括设备运行限制、储能充放电功率限制、荷电状态约束以及微电网与配电网之间的功率平衡约束。
将微电网框架构建为马尔可夫决策过程,状态空间包含微燃气轮机功率、负荷功率、光伏功率、储能剩余容量和电价;动作空间包含微燃气轮机功率变化、储能充电功率变化和放电功率变化。奖励函数设置为负的运营成本,以激励算法最小化总成本。
该算法的核心创新体现在三个层面:预测补偿、异步更新和相对熵正则化。当通信故障导致状态信息缺失时,算法使用预测模型估计缺失状态,确保系统继续运行。一旦通信恢复,系统获取真实状态并重新计算该时期的奖励,修正累积误差。
相对熵正则化是算法的另一大亮点。在策略更新过程中,通过引入KL散度作为正则化项,确保新旧策略之间差异最小化,有效减少预测误差引起的策略波动,增强策略更新的稳定性。
算法流程包括状态获取、数据传输检查、预测补偿、奖励重计算和策略更新等步骤。整个过程形成了完整的闭环优化系统,确保在通信故障情况下仍能保持较高的调度性能。
研究团队设计了详细的实验方案,使用烟台微电网全年运行数据,以15分钟为间隔采样,每天定义为一个回合,每个回合包含96个时间步长。通信故障数据来源于微电网负荷和光伏数据采集终端的实际故障记录。
训练评估显示,RER-AU-SAC算法在训练过程中表现出良好的稳定性。特别是在1500个训练回合后,奖励波动显著减小并趋于稳定,表明算法有效收敛到最优策略。
消融研究通过设计三种变体算法,验证了各关键组件的贡献。结果显示,相对熵正则化和异步更新策略的结合使算法在短期、中期和长期数据丢失场景下均表现出色。特别是在长期数据丢失(超过20个时间步长)场景中,RER-AU-SAC将成本降低了8.82%,显著优于其他对比算法。
测试日数据选取了故障持续时间最长的43个时间步长进行验证。结果显示,RER-AU-SAC在数据丢失期间保持了合理的电网交换,并在低价时段增加了电池充电操作,微燃气轮机也调整到适当水平以维持系统平衡。
与其他算法的对比进一步证明了RER-AU-SAC的优越性。与传统优化算法(如MPC、PSO、GA)相比,RER-AU-SAC在实际运行中计算时间大幅缩短,因为强化学习算法可以离线训练、在线应用。与深度强化学习算法(如DDPG、TD3)相比,RER-AU-SAC在长期数据丢失场景下成本显著降低,表现出更好的抗干扰能力。
该研究提出的RER-AU-SAC算法成功解决了微电网在负荷和光伏通信故障下的经济调度问题。通过相对熵正则化和异步奖励更新机制的有效结合,算法不仅提高了数据丢失情况下的经济性,还保证了系统的稳定运行。
实验结果表明,与传统算法相比,RER-AU-SAC不仅运行速度最快,在通信故障期间仍能保持较高的经济效率。在短期数据丢失场景下,平均成本降低0.98%;在中期数据丢失场景下,平均成本降低1.41%;而在长期数据丢失场景下,成本降低幅度达到6.92%,优势尤为明显。
该研究的实际意义在于为微电网面临通信故障时的经济调度提供了切实可行的解决方案。特别是在可再生能源占比不断提高的背景下,通信可靠性问题日益突出,该算法为微电网的安全稳定运行提供了重要技术支撑。
然而,研究也存在一定局限性。目前算法基于特定工程案例,未来需要在更复杂多变的环境中验证其适应性。此外,研究仅关注负荷和光伏系统的通信故障,未来可扩展至储能设备和微燃气轮机的数据采集和控制问题。
总体而言,这项研究为微电网经济调度领域带来了创新思路和方法,特别是在处理通信故障和数据丢失方面提供了有效解决方案,对推动能源互联网建设和智能电网发展具有重要意义。随着可再生能源比例的不断提升和微电网规模的不断扩大,这类能够应对不确定性的智能调度算法将发挥越来越重要的作用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号