首页> 中国专利> 用于风电计划功率跟踪的储能设备控制策略制定方法

用于风电计划功率跟踪的储能设备控制策略制定方法

摘要

一种用于风电计划功率跟踪的储能设备控制策略制定方法,其步骤如下:a.输入基础数据;b.初始化Q值函数;c.设置时段数t=1、已实施的动作选择次数N

著录项

  • 公开/公告号CN107026462A

    专利类型发明专利

  • 公开/公告日2017-08-08

    原文格式PDF

  • 申请/专利权人 华北电力大学(保定);

    申请/专利号CN201710470529.3

  • 发明设计人 李泽;

    申请日2017-06-20

  • 分类号

  • 代理机构石家庄冀科专利商标事务所有限公司;

  • 代理人李羡民

  • 地址 071003 河北省保定市永华北大街619号

  • 入库时间 2023-06-19 03:00:53

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-06-23

    未缴年费专利权终止 IPC(主分类):H02J3/28 授权公告日:20180504 终止日期:20190620 申请日:20170620

    专利权的终止

  • 2018-05-04

    授权

    授权

  • 2017-09-01

    实质审查的生效 IPC(主分类):H02J3/28 申请日:20170620

    实质审查的生效

  • 2017-08-08

    公开

    公开

说明书

技术领域

本发明涉及风储混合系统中储能设备控制策略的制定方法,可提高风储混合系统的可靠性、自律性和计划性,属于发电技术领域。

背景技术

风力发电具有技术成熟、成本低、环境友好的特点,但其间歇性、波动性给电网运行调度带来了挑战,成为制约风电发展的重要因素。随着风电并网比例的增加,仅靠电网侧调控将难以实现风电的合理消纳,近年来,从提高风电自律性角度出发,减缓风电对电网运行带来的冲击,逐渐成为新的发展方向。储能设备可提供快速、双向的备用响应,将储能与风电组成风储混合系统,有利于提高输出功率的可控性、平稳性和计划性。

在电力市场环境下,通常要求风电场实际输出功率与其申报的计划功率相匹配,若实际输出功率偏离计划值,则会增加大电网调度压力,因此需要对偏离计划功率的行为进行惩罚并收取相应费用。借助储能的快速、双向响应能力,风储混合系统可通过自身调控使实际输出功率尽可能地跟踪预先设定的发电计划,降低出力偏差,以降低风储混合系统所支付的惩罚费用,而如何充分利用有限的储能资源最大限度地实现计划功率跟踪成为问题的关键。由于风电输出功率的强不确定性,加之储能设备的调控行为受到存储容量、功率限制、充放电次数等多种约束的限制,使得混合系统的计划功率跟踪控制问题十分复杂,因此有必要针对风储混合系统的储能设备设定一套合理的控制策略,以提高风储混合系统的可靠性、自律性和计划性。

发明内容

本发明的目的在于针对现有技术之弊端,提供一种用于风电计划功率跟踪的储能设备控制策略制定方法,以提高风储混合系统的经济性、自律性和计划性。

本发明所述问题是以下述技术方案解决的:

一种用于风电计划功率跟踪的储能设备控制策略制定方法,所述方法在电力市场背景下,基于强化学习理论,采用SARSA学习方法制定风储混合系统输出功率控制策略,具体步骤如下:

a.输入基础数据,包括:混合系统与电网交易的各类费用参数;混合系统申报的计划功率、混合系统申报的备用容量、风电实际输出功率;储能设备功率限值、容量限值、充放电效率、免惩罚时段数;SARSA学习算法参数;其中,混合系统与电网交易的各类费用参数包括备用电量价格、备用惩罚价格;SARSA学习算法参数包括学习因子、折扣因子、学习步数和惩罚系数;

b.初始化Q值函数;

c.设置时段数t=1、已实施的动作选择次数Nn=0;

d.根据储能设备t时段初始时刻存储电量Es,t、风电实际功率与混合系统计划值之差ΔPh,t、储能设备充放电状态Ks,t、混合系统申报的备用容量确定t时段混合系统所处的状态st

e.根据当前状态st、值函数Qt(s,a)选择控制动作at,具体步骤如下;

①在[0,1]区间内取随机数TR

②计算概率阀值TH

式中:Nn为已实施动作选择的次数;NT为训练全过程动作选择的总次数;

③进行动作选择:若TR>TH,随机从可行动作集A中选择动作at;若TR≤TH,选择贪婪策略作为本时段动作,即:

f.根据动作at与混合系统输出功率偏差控制目标值的一一对应关系,得到t时段混合系统输出功率偏差控制的目标值;

g.根据混合系统输出功率偏差控制目标值计算储能设备功率控制需求值

h.计算储能设备在t时段的实际充放电功率

①若t时段储能设备的控制设定值需校验储能设备发出功率后,是否超出储能设备容量下限,若超出则需修正:

式中:Es,t为t时段初始时刻储能设备存储电量;ηd为储能设备的放电效率;Δt为时段持续时间;Esmin为储能设备容量下限;为求取储能实际输出功率时暂存的临时值。

②若需校验储能设备吸收功率后,是否超出储能设备容量上限,若超出则需修正:

式中:ηc为储能设备的充电效率;Esmax为储能设备容量上限;

③此外,储能设备实际输出功率还应满足有功功率上限约束、下限约束,若超出有功功率上限或下限,则需修正:

式中:Psmax为储能设备有功功率上限;Psmin为储能设备有功功率下限;为储能设备实际输出功率。

i.计算t时段混合系统实际输出功率偏差值

式中:为t时段风电实际输出功率;为混合系统向电网申报t时段计划功率值;

j.计算t时段立即回报值rt+1(st,at):

rt+1(st,at)=Cr(t)+Cp(t)+Ca(t)+Cc(t)

Cr(t)为备用电量费用,Cp(t)为实际使用备用超出申报备用时产生的惩罚费用,计算公式分别为:

式中:λr,t为t时段的备用电量价格;λp为混合系统实际使用备用超出申报备用范围时,电网对混合系统的惩罚费用系数;Rh,t为混合系统申报的t时段备用容量;

Ca(t)为t时段混合系统实际控制效果达不到所设定的控制目标值设定的惩罚,计算公式为:

式中:kc为储能设备功率需求值与实际值不符对应的惩罚系数;

Cc(t)为t时段储能设备充放状态转变对应的惩罚:

式中:kk为频繁充放电对应的惩罚系数;Ks,t为储能连续充、放电持续时段数,正数表示已连续充电时段数,负数表示已连续放电时段数;Ksmax为免惩罚时段数,当储能连续充电或放电Ksmax个时段后,改变充电、放电状态不会受到惩罚;

k.根据Ks,t和t时段的充放电行为跟新储能设备t+1时段充放电状态Ks,t+1

l.识别t+1时段风储混合系统所处的状态st+1,根据动作选择策略确定t+1时段风储混合系统控制动作at+1

m.对Q值函数进行修正:

Qt+1(st,at)=Qt(st,at)+α[rt+1(st,at)+γQt(st+1,at+1)-Qt(st,at)]

式中:Qt(st,at)为经过t-1次修正后的最优动作值函数;α为学习因子;

n.若达到规定的学习步数NT,按照Q值函数执行贪婪策略即为本专利所形成的控制策略;若未达到规定的学习步数,t=t+1、Nn=Nn+1,转至步骤d。

上述用于风电计划功率跟踪的储能设备控制策略制定方法,所述风储混合系统所处的状态st是风储混合系统状态集合S中的元素,所述风储混合系统状态集合S的确定方法如下:

将储能设备容量按照的区间长度等分为m个区间:[Esmin,Esmin+ΔEs)、[Esmin+ΔEs,Esmin+2ΔEs)、…、[Esmax-ΔEs,Esmax];将风电实际功率与混合系统计划值之差ΔPh,t按照的区间长度等分为n个区间:n为偶数;将混合系统申报的备用容量按照的长度划分为j个离散状态:0、此外,储能设备充放电状态共有k=2Ksmax+1个状态:-Ksmax、-Ksmax+1、…、-1、0、1、…、Ksmax-1、Ksmax。由上述四个变量状态的笛卡尔积组成风储混合系统状态集合S:

S={s1,s2,…,sm×n×j×k}

上述用于风电计划功率跟踪的储能设备控制策略制定方法,所述可行动作集A的构造方法如下:

将t时段混合系统输出功率偏差控制目标值作为控制系统的动作行为,若相邻控制设定值的差值为控制设定值为0、…、共2b+1个可行动作,分别用a1、a2、…、a2b+1代表上述各控制目标值,组成可行动作集A:

A={a1,a2,…,a2b+1}

式中:a1,a2,…,a2b+1分别表示上述2b+1个控制设定值。

本发明仅需根据与环境相互交互的经验积累,即可有效应对风电输出功率波动带来的不确定性;该方法实现了对储能设备的合理控制,有利于提高风储混合系统输出功率的自律性、计划性,降低混合系统的备用费用,同时降低了风电输出功率波动对电网运行调度的影响。

附图说明

图1是本发明方法的流程图。

文中各符号为:Es,t为t时段初始时刻储能设备存储电量;Es,t+1为t时段末尾时刻储能设备存储电量;Ks,t为储能设备的充放电状态;Ksmax为储能设备的免惩罚时段数;为t时段风电实际输出功率;ΔPh,t为t时段风电实际功率与混合系统计划值之差;为混合系统输出功率偏差控制的目标值;为t时段混合系统实际输出功率偏差;为储能设备的输出功率需求值;为考虑容量约束后的储能设备输出功率修正值;为储能设备在t时段的实际充放电功率;为混合系统向电网申报t时段计划功率值;Rh,t为混合系统申报的t时段备用容量;st为t时段风储混合系统所处的状态;st+1为t+1时段风储混合系统所处的状态;at为t时段风储混合系统控制动作;at+1为t+1时段风储混合系统控制动作;TR为随机数;TH为概率阀值;Nn为已实施的动作选择次数;NT为预设的训练过程中动作选择总次数;ηd为储能设备的放电效率;Δt为t时段的持续时间;Esmin为储能设备容量下限;ηc为储能设备的充电效率;Esmax为储能设备容量上限;rt+1(st,at)为t时段的立即回报值;CT(t)为t时段混合系统总备用费用;Cr(t)为t时段混合系统备用电量费用;Cp(t)为t时段混合系统实际使用备用超出申报备用时产生的惩罚费用;Ca(t)为t时段混合系统实际控制效果达不到所设定的控制目标值的惩罚;Cc(t)为t时段储能设备充放状态转变对应的惩罚;λr,t为t时段的备用电量价格;λp为混合系统输出功率超出申报备用时对应的惩罚系数;kc为储能设备功率需求值与实际值不符对应的惩罚系数;kk为频繁充放电对应的惩罚系数;Qt(st,at)为t-1次动作后形成的最优动作值函数;α为学习因子;Psmax为储能设备有功功率上限;Psmin为储能设备有功功率下限。

具体实施方式

下面结合附图对本发明作进一步说明。

本发明提供了一种用于风电计划功率跟踪的储能设备控制策略制定方法,用以解决风储混合系统中储能设备输出功率的控制问题。

1.市场环境下风储混合系统合作机制

风电与储能构成风储混合系统,其中,风电是混合系统的能量来源,而储能则为混合系统提供了功率调节控制的可能性。在电力市场环境下,混合系统提前向电网申报各时段的发电计划及备用容量,在运行过程中,混合系统通过实时调节储能设备输出功率,使混合系统总的输出功率尽可能跟踪预先设定的发电计划。由于风电的不确定性,实际风电输出功率与计划发电之间不可避免出现偏差,由此需电网为混合系统提供备用电量,混合系统支付相应的备用电量费用,此外,若偏差过大,超出了混合系统已购买的备用容量,还需支付相应的惩罚费用。为尽可能跟踪发电计划,降低备用电量费用和备用惩罚费用,混合系统须充分利用储能设备功率调节速度快的特点,对储能系统充放电功率予以控制,将混合系统功率输出偏差控制在合理范围内。

由风储混合系统的运行机制可知,在混合系统计划输出功率和申报备用容量确定的条件下,如何使混合系统实际输出功率尽可能的按照计划值执行,是降低总备用费用的关键。充分利用储能设备功率调节速度快的特点,对储能设备进行恰当控制,可在一定程度上降低混合系统输出功率的波动性,在降低混合系统备用费用的同时,降低其输出功率波动性对电网的不良影响。

2.风储混合系统控制模型

为实现风力发电的最大化利用,风机控制常采用最大功率跟踪控制,即风电实际输出功率完全由风速决定,不具可控性。风储混合系统控制的关键即储能设备的控制,储能设备需满足相关运行约束的要求,在充电、放电过程中,需满足能量平衡约束,即:

式中:Es,t为t时段初始时刻储能设备存储电量;Es,t+1为t时段末尾时刻储能设备存储电量;为储能设备在t时段实际输出有功功率,正值表示发出功率,负值表示吸收功率;ηc为储能设备充电效率;ηd为储能设备放电效率;Δt为t时段的持续时间。

储能设备在运行中需满足输出功率约束、容量约束要求:

Esmin≤Es,t≤Esmax>

式中:Psmax为储能设备有功功率上限;Psmin为储能设备有功功率下限;Esmax为储能设备容量上限;Esmin为储能设备容量下限。

定义储能设备的充放电状态为Ks,t,Ks,t为整数,表示截止至t时段初始时刻截止,储能设备已连续充电或连续放电的时段数。若Ks,t为正数,则表示储能设备已连续放电Ks,t个时段;若Ks,t为负数,则表示储能设备已连续充电|Ks,t|个时段。储能设备t+1时段初始时刻的充放电状态Ks,t+1由Ks,t和t时段的充放电行为共同决定:

式中:Ksmax为储能设备的免惩罚时段数,当储能连续充电或放电Ksmax个时段后,此时改变充电、放电状态不认为是频繁充放电。

下面以某时段t的控制过程为例对风储混合系统控制模式进行说明。在混合系统运行至t时段之前,混合系统已向电网申报的t时段计划功率值为备用容量为由于风电输出功率的不确定性,t时段风电实际输出功率与计划值不可避免的存在偏差ΔPh,t,即:

ΔPh,t绝对值越大,混合系统所需要备用费用就越大。采用风储合作的方式后,可以通过控制储能设备充放电功率补偿系统功率输出偏差,使混合系统具有实时调控能力,减少混合系统支付的备用电量费用和备用惩罚费用。本发明中的控制策略中,首先根据动作选择策略确定混合系统功率偏差控制的目标值混合系统通过对储能设备输出功率的控制使混合系统的总功率偏差尽可能的达到该目标值,根据可求得储能设备的输出功率需求值

由于受储能设备运行约束的限制,储能设备实际输出值可能无法达到由式(6)得到的需求值因此通过可行性校验最终确定储能设备实际输出功率:

需校验储能设备发出功率后,是否超出储能设备容量下限,若超出则需修正:

式中:为考虑容量约束后的储能设备输出功率修正值。

需校验储能设备吸收功率后,是否超出储能设备容量上限,若超出则需修正:

储能设备实际输出功率还应满足有功功率上限约束、下限约束,若超出有功功率上限或下限,则需修正:

式中:为储能设备在t时段的实际充放电功率。

在储能设备实际输出功率的作用下,t时段混合系统实际输出功率偏差为:

确定t时段系统控制行为后,即可根据实际运行情况计算混合系统总备用费用CT(t):

CT(t)=Cr(t)+Cp(t)>

Cr(t)为备用电量费用,由t时段混合系统的实际功率偏差和备用电量价格决定:

式中:λr,t为t时段的备用电量价格。

Cp(t)为实际使用备用超出申报备用时产生的惩罚费用,当t时段混合系统的实际功率偏差超过了系统已申报的备用容量Rh,t,则超出的部分需要接受惩罚。Cp(t)可由下式计算:

式中:λp为混合系统实际使用备用超出申报备用时对应的惩罚系数。

由式(10)可知,在储能设备输出功率、容量不受限制的情况下,可实现实际输出功率严格跟踪计划曲线,即使总备用费用CT(t)为0。然而,受经济性、技术性条件的制约,储能设备仍属于稀缺资源,需根据实际运行情况对其运行策略进行优化,确定恰当的储能设备输出功率,以实现储能设备效用的最大化。由上述控制模型可以看出,本发明所涉及问题的复杂性主要在于风电输出功率的不确定性、储能电量约束带来的时段关联性,此外,还需考虑储能设备容量限制、输出功率限制、频繁充放电限制等,上述问题相互交织,给风储混合系统计划功率跟踪控制策略的确定带来了困难,传统优化方法难以有效解决。

3.储能设备功率控制策略制定方法

3.1强化学习理论及SARSA学习算法基本原理

强化学习通过学习系统与其所处环境进行交互,在此过程中不断获取环境反馈信息进行学习,伴随时间的推移和信息的积累,学习主体持续对决策能力进行修正,逐步具备对某一问题的决策能力。强化学习的学习过程仅需要自身经历,对解决含不确定性的控制问题具有一定优势,对于本发明所涉及的不确定性环境下的风储混合系统优化控制问题亦有较好的适应性。

SARSA学习是一种模型无关的强化学习算法,迭代时采用状态-动作对的立即回报值r和Q(s,a)作为估计函数。Qπ(s,a)的具体含义可表示为,经过状态s,并选择动作a后,在策略π下获得累计奖励的期望值:

式中:γ为折扣因子。

SARSA学习的迭代过程一般按式(15)进行:

Qt+1(st,at)=Qt(st,at)+α[rt+1(st,at)+γQt(st+1,at+1)-Qt(st,at)]>

式中:st为第t次动作选择时混合系统所处的状态;at为第t次动作选择时采取的控制动作;rt+1(st,at)为立即回报值,表示系统在st状态下采用动作at,环境反馈给学习系统的强化信号;Qt(st,at)为t-1次动作后形成的最优动作值函数;α为学习因子。

在实际应用中,SARSA学习方法的主要问题是“状态-动作”对数量过大导致的维数灾,由于SARSA学习方法要求在训练过程中对所有的“状态-动作”对都遍历足够多的次数,因此,过多的“状态-动作”对将极大的影响训练效率和有效策略的生成,在不影响控制效果的前提下,应尽可能的缩减“状态-动作”对的数量。在本发明所涉及问题中,混合系统涉及的状态变量包括:混合系统申报的计划功率值、混合系统申报的备用容量、储能设备存储电量、储能设备充放电状态、风电实际功率等;混合系统主动的控制变量为储能设备输出功率。为尽量降低“状态-动作”对的数量,本专利在构成状态空间和动作空间时对上述变量进行等效变化,在不影响问题本质和控制效果的前提下,尽可能的降低“状态-动作”对的数量,提高训练效率。

在状态变量中,“混合系统申报的计划功率值”、“风电实际功率”两个状态都散布在一个较大的范围内,若直接将其作为状态变量,对其进行离散化后所形成的状态数量较大。实际上,由于本发明涉及问题的关键在于缩减混合系统计划功率和实际功率偏差值,因此将上述两个状态变量转化为一个偏差值仍能有效表示混合系统的状态,即可将“风电实际功率与混合系统计划功率的偏差值”作为一个状态变量,代替“混合系统申报的计划功率值”、“风电实际功率”两个状态变量,一方面,缩减了状态变量的个数,另一方面,由于“风电实际功率与混合系统计划功率的偏差值”为偏差量,其分布范围较“混合系统申报的计划功率值”、“风电实际功率”两个状态变量都小的多,采用相同的间隔进行离散化,生成的状态个数得以大大减少。

在状态变量中,“储能设备充放电状态”表示储能连续充电、连续放电的次数,当其持续时段数达到免惩罚时段数之后,再继续累加不会对控制效果产生影响,只会增加该变量对应的状态数,因此,在“储能设备充放电状态”变量更新时,若持续时段数超过免惩罚时段数,均将其值设定为免惩罚时段数,从而避免了冗余状态带来的状态数增加。

在动作空间中,由于储能设备输出功率分布在较大的范围,若直接采用“储能设备输出功率”作为动作值,必须设立较多的动作值,导致可行动作集较大。对此,本专利将“混合系统输出功率控制偏差目标值”作为动作值,该动作值是偏差量,与“储能设备输出功率”相比,该偏差量的功率范围小得多,且通过已知的“混合系统功率计划值”、“风电实际功率”等状态变量,可迅速求出与之对应的“储能设备输出功率”,从控制效果上来说是等效的,采用相同的间隔进行离散化,所设置的动作个数可以大大减少。

在风储混合系统控制过程中,由于采用间接量“混合系统输出功率控制偏差目标值”来表示控制行为,若该控制值设置不合理,则可能出现“储能设备输出功率”达不到该控制目标,对此,本专利在立即回报函数中设置相应惩罚,通过训练和学习后,成熟的控制策略可自动避免此类不合理的控制动作。

由于储能设备频繁充放电会影响储能设备寿命,因此需在控制过程中考虑对频繁充放电行为的控制,对此,本发明定义了“储能设备充放电状态”,在训练过程中依据储能设备的实际运行情况,对储能设备频繁充放电的行为在立即回报函数中进行相应的惩罚,实现储能充放电转换频繁程度和控制效果的折中。当储能充电或放电持续时间达到免惩罚时段后,改变充放电状态将不会受到惩罚;当储能充电或放电持续时间未到免惩罚时段,将根据充电、放电持续时段数对其充放电状态转换的行为进行惩罚。

3.2环境状态集

在本发明中,采用时段t初始时刻储能设备的存储电量Es,t、风电实际功率与混合系统计划值之差ΔPh,t、混合系统申报的备用容量储能设备充放电状态Ks,t四个变量表示混合系统状态。将前两个变量离散化为区间的形式,每个区间代表该变量的一个状态,后两者采取离散值的形式,每个离散值表示变量的一个状态,四者的笛卡尔积组成问题的状态集合s。

将储能设备容量按照ΔEs=(Esmax-Esmin)/m的长度等分为m个区间,每个区间代表储能容量的一个状态:[Esmin,Esmin+ΔEs)、[Esmin+ΔEs,Esmin+2ΔEs)、…、[Esmax-ΔEs,Esmax]。

类似,将风电实际功率与混合系统计划值之差ΔPh,t按照的长度划分为n个区间的形式:…、n为偶数。

将混合系统申报的备用容量按照的长度划分为j个离散状态:

储能设备充放电状态共有k=2Ksmax+1个状态:-Ksmax、-Ksmax+1、…、-1、0、1、…、Ksmax-1、Ksmax

根据上述划分,可将混合系统所处的环境状态划分为m×n×j×k种状态:

S={s1,s2,…,sm×n×j×k}>

状态划分越细,对混合系统运行状态描述的越准确;但过细的状态会导致状态集合中元素数目过大,导致学习周期过长,不利于在线控制,因此在实际运行中,需根据实际需要和经验确定恰当的值。

3.2可行动作集

本发明中,将t时段混合系统输出功率偏差控制目标值作为控制系统的可行动作,因混合系统功率偏差值的可选空间呈现以0为中心的对称分布,若相邻控制目标值的差值为可供设定的输出功率偏差控制目标值有:…、0、…、共2b+1个可行动作,分别用a1、a2、…、a2b+1表示上述各目标值,组成可行动作集A:

A={a1,a2,…,a2b+1}>

2.3立即回报

本发明中,综合考虑混合系统的总备用费用、控制目标的可行性、储能充放电频繁程度,定义混合系统t时段的立即回报值为:

rt+1(st,at)=CT(t)+Ca(t)+Cc(t)>

CT(t)为混合系统t时段需支付的备用费用,其计算公式如式(11-13)所示。

Ca(t)为t时段混合系统实际控制效果达不到所设定的控制目标值设定的惩罚。由于储能设备容量和功率的限制,如果控制策略所设定的混合系统输出功率偏差控制目标值不合理,可能导致储能设备无法达到该控制目标,表现为储能设备功率需求值与实际输出值不相同,对此不合理情况,在立即回报值中进行相应惩罚,计算公式为:

式中:kc为储能设备功率需求值与实际值不符对应的惩罚系数。

Cc(t)为t时段储能设备充放状态转变对应的惩罚。当储能设备连续充电或连续放电时段达到Ksmax及以上时,说明储能此时改变充放电状态不属于频繁充放电,无需惩罚;反之,若储能设备连续充电或连续放电并未达到Ksmax个时段,说明此时改变充放电状态属于频繁充放电,且|Ks,t|值越小说明充放电状态转变越频繁,相应的惩罚越多。Cc(t)的计算公式为:

式中:kk为频繁充放电对应的惩罚系数。

2.3.4动作选择策略

在学习过程中,需根据当前状态st、值函数Qt(s,a)选择控制动作at。若每次动作选择都根据Q值选择最大的动作,即执行贪婪策略,则无法对可行动作进行充分探索,容易造成局部收敛;若选择的随机性太强,则学习速度太慢,不利于形成最终的控制策略。对此,本发明采用渐变式的动作选择策略如下:

1)在[0,1]区间内取随机数TR

2)计算概率阀值TH

式中:Nn为已实施动作选择的次数、NT为预设的训练中动作选择总次数。

3)进行动作选择,若TR>TH,从可行动作集中等概率随机选择任一可行动作执行;若TR≤TH,按照贪婪策略选择可行动作,即:

根据动作选择策略可知,在学习初期,动作选择倾向于随机选择,以便对可行动作进行充分探索,伴随学习过程,降低动作选择的随机性,逐渐倾向于贪婪策略,当动作选择次数达到0.9NT后,系统开始执行贪婪策略,NT的设定根据实际训练效果和需要给定。

2.4储能设备功率控制策略制定步骤

本发明应用于风电计划功率跟踪的储能设备功率控制策略制定方法具体步骤如下,流程图如图1所示:

1)输入基础数据,包括:混合系统与电网交易的各类费用(备用电量费用、惩罚费用);混合系统申报的计划功率、备用容量、风电实际输出功率;储能设备功率限值、容量限值、充放电效率、免惩罚时段数;SARSA学习算法参数(学习因子、折扣因子、学习步数、惩罚系数)等;

2)初始化Q值函数;

3)设置时段数t=1、已执行动作选择次数Nn=1;

4)根据储能设备存储电量Es,t、风电实际功率与混合系统计划值之差ΔPh,t、储能充放电状态Ks,t、混合系统向电网申报的备用容量确定当前时段所处的状态st

5)生成随机数TR,根据式(21)计算概率阀值TH,若TR≤TH,根据式(22)选择贪婪策略作为本时段动作若TR>TH,随机从可行动作集A中选择动作at

6)根据动作at的一一对应关系得到混合系统输出功率偏差控制目标值;

7)根据式(6)计算储能设备需求功率根据式(7-9)计算储能设备实际充放电功率

8)根据式(10)计算t时段混合系统实际输出功率偏差

9)根据式(10-13)、式(18-20)计算t时段的立即回报值rt+1(st,at);

10)根据式(4)修正储能充放电状态;

11)识别t+1时段的状态st+1,根据动作选择策略确定t+1时段动作at+1

12)根据式(15)对Q值函数进行修正;

13)若达到规定的学习步数,训练结束,按照Q值函数执行贪婪策略即为所形成的混合系统控制策略;若未达到规定的学习步数,t=t+1、Nn=Nn+1,转至步骤4)。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号