基于优化Q学习算法的光储系统控制策略研究

基于优化Q学习算法的光储系统控制策略研究

扬  

ZHOU Yang

广东工业大学 自动化学院,广州  510006 

Faculty of Automation, Guangdong University of Technology, Guangzhou 510006, China

 

Q-Learning Method-Based Optimal Control Scheme for Energy Storage Systems With Solar Renewable Energy

 

AbstractIn this paper, a novel optimal energy storage control scheme is investigated in smart grid environments with solar renewable energy. Based on the idea of adaptive dynamic programming (ADP), a self-learning algorithm is constructed to obtain the iterative control law sequence of the battery. Based on the data of the real-time electricity price (electricity rate in brief), the load demand (load in brief), and the solar renewable energy (solar energy in brief), the optimal performance index function, which minimizes the total electricity cost and simultaneously extends the battery’s lifetime, is established. A new analysis method of the iterative ADP algorithm is developed to guarantee the convergence of the iterative value function to the optimum under iterative control law sequence for any time index in a period. Numerical results and comparisons are presented to illustrate the effectiveness of the developed algorithm.

index Termsadaptive dynamic programming (ADP),  energy storage system, optimal control, solar renewable energy.

 

 

要:本文提出了一种新型的储能模型控制方案以适用于智能电网与太阳能可再生能源并网系统,基于自适应动态规划(adaptive dynamic programming,简称ADP),构造出一种自学习算法得到可迭代控制序列的电池。基于实时电力的数据价格(简称电费),负荷需求(简称负荷)和太阳能可再生能源(简称太阳能),最小化总电力成本、使性能指标达到最佳同时扩大电池的使用寿命。这种新的迭代ADP算法的开发是为了保证函数迭代值在任意时间收敛到最优。最后,经过数据结果对比验证了所开发算法的有效性。

 

关键词自适应动态规划ADP),储能系统,最优控制,太阳能再生能源


1  引言

 

随着智能电网的发展,更多智能设计中需要更多的智能储能系统。能源储存系统的未来将为终端用户提供更好的能源管理、先进的优化技术以及减少资源的浪费。可再生能源,电力负荷和储能设备(电池)可以定义为智能储能系统,它们能够以自身孤立状态进行操作。随着计算机智能的发展,能量存储的最优利用得到了广泛的发展以及近年来许多学术研究者的关注。自适应动态规划(ADP)是一个重要的和强大的脑状智能最优控制方法,由于自主学习和适应能力强,已被广泛应用于使储能系统获得最优控制。在[2]中,依赖于行动启发式动态规划算法,也叫做Q学习算法。[3]被提出来通过神经网络学习以获得最优能量存储(电池)控制实现成本最小化。在[4]中,基于时间提出了Q学习算法来获得电池控制最优解,以尽量减少风能和太阳能存储系统的总电力成本。在[5]中,一个粒子群优化(PSO)算法,并对其权重进行了预处理神经网络,在ADP加速神经网络的训练。在[6]中,一个新的事件触发的ADP算法提出了获得最优频率控制的方法加载。但是,在以前的能量存储系统的ADP算法中,它主要集中在结构改进上,而提出的ADP结构的性质很少分析。在这种情况下,实现控制的最优性方案不能得到保证。其次,以前的ADP算法要求时间索引t达到无穷大最佳的性能指标函数,也就是说最优性能指标函数和最优控制律是t→∞的时不变函数。由于电费,负荷需求和太阳能可再生能源一般都是时变函数,收敛的时不变函数不能有效地逼近最优性能指标储能系统的功能和最优控制。在[7]中,没有考虑可再生能源,提出了ADP的迭代Q学习算法可以得到能源储存系统的最佳电池控制策略,证明了随着迭代指数增加到无穷大,迭代Q函数收敛到最佳。如果考虑到可再生能源,它将会有一个更复杂的方案。因此,ADP算法和[7]中的性质分析不能直接进行应用于可再生能源的储能系统。

于是,一种新的属性分析方法(ADP)算法对于获得光储系统的最佳电池控制是必要的,这激励了我们的研究。在本文中,受到[4][5][7]的启发,基于Q学习算法提出了一个优化的迭代开发ADP算法以获得最佳的电池控制用于太阳能可再生能源的储能系统。根据电费,负荷和电费的数据太阳能,储能系统的模型和优化目标建立。建立在此基础上系统中,执行迭代ADP算法,其中,每次迭代,一个周期的迭代控制法则序列而不是单一的控制法。接下来,迭代ADP算法进行了分析。作为迭代指数增加到无穷大,我们强调迭代值函数任何时候指数在这个时期都被证明是趋于一致的最优性能指标函数。最后是数值实验并进行比较以显示效果迭代ADP算法。

2  构建光储系统模型

太阳能可再生能源的储能系统主要由,其结构如图1 所示。

 


 

 

 

 

 

 

 

 

 

1

 

在本文中,作为太阳能可以满足负载和充电电池的能量,太阳能的平衡可以表示为:

本文使用的光伏模型基于[1]


2.1 储能系统模型

本文中使用的电池模型基于[2],其中电池效率需要被考虑以便尽可能延长电池的使用寿命。 在这种情况下电池不能同时充电和放电,电池模型可表示为:

在本文中,为了便于分析,不考虑放电。 定义储能限制如下:

2.2 优化Q学习算法

受到启发,本文优化了迭代ADP算法Q学习算法[7]相比具有内在的差异。首先,在[7]中,在没有考虑到太阳能的情况下开发了Q学习算法以获得储能系统的最佳电池控制策略;但是在本文中,太阳能被清楚地考虑在了迭代ADP算法内,以构建更复杂系统。其次,在[7]中,迭代Q函数,包含状态和控制信息;而在本文中,迭代函数Q只是功能状态。因此,更新的计算量迭代值Q小于[7]的迭代值Q。第三,在[7]中,要求时间指数满足k{0,λ,2λ,...}的情况下构建Q学习算法,而在本文中,时间索引是k = 01...。此外,在[7]中,迭代Q函数的性质对于k{0,λ,2λ,...}分析,缺乏分析其他时间的属性。因此,我们认为这个分析在[30]中是不完整的。所以本文优化迭代ADP算法,新的分析方法将会用数据来证明其可行性。

 

2.3 假设和优化

为便于分析,本文结果基于以下假设:假设1:不允许从储能系统流向电网。假设2:电费,负荷和太阳能能量是周期为λ= 24 h的周期函数。基于假设1假设2我们可以得到:

3  实验与结果分析

在本节中,我们将进行数值实验比对以显示以优化的迭代ADP算法的性能。 电力的轨迹速率和168小时(一周)的负荷如图3a)和(c)所示。 电力的平均轨迹速率和载荷分别如图3b)和(d)所示。 在本文的平均电价,平均负荷和平均值太阳能被用作周期性的周期性函数λ= 24来实现迭代ADP算法。

选择电池的容量16k Wh。额定功率的电池电量为3kW,同时设定下限和上限。               

 

2a)                                图2b

 

2c)                                 图2d

 

现在,我们地点选择苏州20168月的第一周,通过[4][5]验证优化Q学习算法的有效性。图2a)显示了一周内的太阳能,平均值显示在图2b)中。让负载数据分别与图2(b)和(d)相同。使迭代ADP算法迭代15次,迭代值函数收敛到最优值。该最佳电池控制图和最佳电池能量图分别在图3(a)和(b)中示出,其中最优电池控制法可以实现。然后我们加入 TBQLPSO算法用于比较。基于新的太阳能,来自电网的电力供应的比较如图3a)所示。电池功率的比较电源如图3b)所示。使用TBQLPSO算法得到的结果如图3c)、(d)和(e)、(f分别所示。3中方法的电池充电功率实时成本比较如图4所示,可以看出,当电费和负载需求低,优化Q学习算法比其他2种基本方法达到为电池充电的最大效率。


 

 

 

   

 

图3(a)                图3(b)                图3(c)                图3(d)

 

       

 

图 3(e)                图3(f)                              图  4                   

4  结束语

在本文中,我们通过有效的迭代ADP算法为太阳能储能系统获得了一种新的最优电池控制方案。 目前的迭代ADP算法由任意的半正定函数初始化。在每次迭代中,i= 01...,得到迭代控制序列,而不是获得单个迭代。根据电费的数据,负载和太阳能,证明了迭代值函数收敛到相应的最优性能指标函数作为迭代指数增加到无穷大。最后,数值实验和比较明显的证明了所改良的Q学习算法的有效性。

参考文献 

[1] S Shekhar S, Kumar B S, Ramesh S. Robust approach for palm (Roi) extraction in palmprint recognition system[C]// IEEE International Conference on Engineering Education: Innovative Practices and Future Trends. IEEE, 2012:1-6.

[2] T. Huang and D. Liu, A self-learning scheme for residential energy system control and management,Neural Comput. Appl., vol. 22, no. 2,pp. 259269, Feb. 2013.

[3] J. Si and Y.-T. Wang, On-line learning control by association and reinforcement,IEEE Trans. Neural Netw., vol. 12, no. 2, pp. 264276,Mar. 2001.

[4] M. Boaro, D. Fuselli, F. D. Angelis, D. Liu, Q. Wei, and F. Piazza, Adap-tive dynamic programming algorithm for renewable energy scheduling and battery management,Cognitive Comput., vol. 5, no. 2, pp. 264277,Jun. 2013. 

[5] D. Fuselli et al., Action dependent heuristic dynamic programming for home energy resource scheduling,Int. J. Elect. Power Energy Syst.,vol. 48, pp. 148160, Jun. 2013. 

[6] L. Dong, Y. Tang, H. He, and C. Sun, An event-triggered approach for load frequency control with supplementary ADP,IEEE Trans.Power Syst., vol. 32, no. 1, pp. 581589, Jan. 2017, doi: 10.1109/TP-WRS.2016.2537984.

[7] Q. Wei, D. Liu, and G. Shi, A novel dual iterative Q-learning method for optimal battery management in smart residential environments,IEEE Trans. Ind. Electron., vol. 62, no. 4, pp. 25092518,Apr. 2015.

[8] Petschnigg G, Szeliski R, Agrawala M, et al. Digital photography with flash and no-flash image pairs[C]// ACM SIGGRAPH. ACM, 2004:664-672.

 

微信二维码
扫码添加微信咨询
QQ客服:1663286777
电话:137-1883-9017
收到信息将及时回复