法律状态公告日
法律状态信息
法律状态
2022-08-30
实质审查的生效 IPC(主分类):G06Q30/02 专利申请号:2022102741065 申请日:20220318
实质审查的生效
技术领域
本发明涉及电力市场技术领域,尤其涉及一种基于强化学习的现货市场售电商报价 方法。
背景技术
在发电侧、售电侧共同放开的电力市场下,售电商既可能作为售电方参与电力市场 售电交易,也可能作为购电方参与市场竞价购电,售电商面临的竞争关系越来越复杂、风险越来越大。现阶段我国积极开展电力现货市场试点的建设,在现货市场交易环境下,售电商主要面临着市场竞价购电的风险。售电商会通过报价行为参与现货市场交易,而 售电商的报价行为需根据市场环境和自身利益需求选择最优的报价策略来实现。为了促 进现货市场持续完善发展,实现售电侧改革的有序推进,让售电商在市场交易中能够获 得更大的利润空间,因而有必要研究售电商在现货市场中如何进行报价决策的问题。
由于电能具有无法大规模储存的特性,电力的生产与消费必须是瞬间完成的,这使 得现货市场在整个电力市场体系中占据了至关重要的地位。在信息不对称和不完全公开 的电力现货市场中,无论市场环境如何变化,共同参与市场竞价的买卖双方均希望自己能够在竞争中获得更大的收益。对于售电商而言,其采取策略性报价行为进行市场竞价 比不采取策略性报价行为会获得更多的利润空间。这是因为售电商作为电力用户的代表 参与市场竞价购电,如果采取的报价行为不当,则会出现购电价格过高或购电量不足的 情况,而无论发生哪种情况,都将会影响售电商的利润空间。从电力市场监管机构的层 面来说,研究售电商报价策略将有助于考察售电商的市场行为,发现市场规则和市场结 构中存在的漏洞,进而不断完善现有的电力市场政策法规。
为了应对这样的挑战,在电力现货市场中,研究售电商报价策略的意义是显而易见 的。鉴于实际现货市场环境的不确定性,分析影响售电商报价策略的因素并研究如何去选择最优的报价策略就显得十分必要。
发明内容
技术目的:针对现有技术中的缺陷,本发明采取了基于Q学习的售电商报价模型,利用该模型能够有效模拟电力现货市场下售电商的竞价行为,并得到一系列最优的报价策略,使售电商采取恰当的报价行为,获得更大的利润空间。
技术方案:为实现上述技术目的,本发明采用以下技术方案。
一种基于强化学习的现货市场售电商报价方法,包括以下步骤:
S1、设定现货市场交易规则:采用购售电双方双边集中竞价方式进行市场交易,通过分时段阶梯报价方式,并采用统一边际出清方式出清结算;
S2、建立售电商收益模型,给出不同类型售电商报价策略的目标模型,并对模型进行假设条件和初值设定;
S3、根据步骤S2建立的不同售电商的收益模型及目标模型,引入强化学习算法,并根据强化学习算法对模型中所有售电商的状态空间、动作空间、奖赏函数进行定义, 建立基于强化学习的现货市场售电商报价模型;
S4、对步骤S3中建立的基于强化学习的现货市场售电商报价模型采用ε-贪心算法进行求解,结合市场出清电价和各售电商下一小时负荷水平,得到各售电商利润和出清 电量。
优选地,所述步骤S2中售电商收益模型包括:
R=Q
其中,R表示售电商的利润;Q
优选地,所述步骤S2中不同类型售电商报价策略的目标模型包括:
中间商分成型的售电商目标模型为:
G
其中,P
扩张型售电商的售电商目标模型为:
G
其中,Q
优选地,所述步骤S3中强化学习算法的Q值的更新规则为:
其中,s为状态,t为动作,β为控制学习速度的动态学习率;
优选地,所述动态学习率β的更新规则为:
其中,T
优选地,所述步骤S4中ε-贪心算法求解过程包括:
步骤S41、划分状态空间,确定动作集合:确定实际电力市场的出清电价和负荷水平的边界,划分二维市场状态下的状态空间,并确定售电商报价的动作集合;
步骤S42、初始化参数:初始化各二维市场状态对应策略集中各策略的Q(s,a)=0,确定最大迭代次数T
步骤S43、随机进行一次交易,得到的市场出清价格与下一小时负荷水平联合作为初始状态s
步骤S44、初始化迭代次数T=1;
步骤S45、基于ε-贪心算法选择竞价策略,确定售电商的收益,并更新Q值,迭代 次数+1;
步骤S46、若T=T
优选地,所述步骤S45中基于ε-贪心算法选择竞价策略包括:首先产生一个[0,1]之 间的随机数h,比较h与ε的大小,若h<ε,则以均匀概率随机从动作策略集中选取一 个动作;若h≥ε,则选择市场状态s
有益效果:本发明采取了基于Q学习的售电商报价模型,利用该模型能够有效模拟电力现货市场下售电商的竞价行为,并得到一系列最优的报价策略,使售电商采取恰 当的报价行为,获得更大的利润空间,有助于不断完善电力现货市场的出清结构。
附图说明
图1是本发明的方法流程图;
图2是本发明的ε-贪心算法求解流程图;
图3是本发明实施例中售电商S1-S5的负荷需求曲线图;
图4是本发明实施例中售电商S6-S10的负荷需求曲线图;
图5是本发明实施例中系统日负荷曲线图;
图6为本发明实施例中25%分成模式的售电商的学习曲线图;
图7为本发明实施例中35%分成模式的售电商的学习曲线图;
图8为本发明实施例中扩张型售电商的学习曲线图。
具体实施方式
以下结合附图和实施例对本发明的一种基于强化学习的现货市场售电商报价方法 做进一步的说明和解释。
如附图1所示,一种基于强化学习的现货市场售电商报价方法,包括如下步骤:
步骤S1:设定现货市场交易规则:采用购售电双方双边集中竞价方式进行市场交易,通过分时段阶梯报价方式,并采用统一边际出清方式出清结算。
在日前市场中,采取双边集中竞价方式进行市场交易。在该交易方式下,购售电双方通过电力交易中心的交易平台进行各自电量和电价的申报,然后电力交易中心根据市场成交规则对参加竞价的购售电双方进行匹配,对于匹配成功的购售电双方分别采取相对应的市场出清价格进行出清结算。为了降低售电商竞价失败的风险,目前我国大部分 地区采用分时段阶梯报价方式,并采用统一边际出清方式出清结算。
分时段阶梯报价方式的报价过程可进行如下描述:
(1)在每个交易日内,售电商针对不同的交易时段分别进行报价,即向电力交易中心申报相应的竞价曲线;
(2)竞价曲线中每一段的内容应包括段量和段价;
(3)一个交易时段可以申报D个容量段;
(4)对于售电商来说,申报的竞价曲线中所有段容量之和应为售电商在该时段的总负荷需求;对于发电商来说,申报的竞价曲线中所有段容量之和为发电商在该时段的 总发电容量。
根据市场交易规则,各发电商和售电商在每个时段只有一次容量及电价的投标机会。 电力交易中心得到发电商和售电商的报价信息后,会形成发电商申报的总供给曲线和售 电商申报的总需求曲线,并以统一边际出清方式为原则制定竞价交易计划。若市场总供给曲线与总需求曲线相交,则该交点即为此次交易的统一边际出清电价;若两者不相交,则根据满足交易规模的要求,将最后成交的买卖双方申报价格的平均值确定为市场统一边际出清价格。
步骤S2:建立售电商收益模型,给出不同类型售电商报价策略的目标模型,并对模型进行假设条件和初值设定:
根据市场的出清结果和售电收益,可得到售电商的收益模型为:
R=Q
式中,R表示售电商的利润;Q
对目前我国电力市场的实际情况,不同组建来源及资质能力的售电商各自存在不同 的报价策略目标,如赚取最大化利润、扩大市场份额等目标。以下针对市场中几种比较典型的售电商,分别建立相应的目标模型:
(1)对于中间商分成型的售电商,其利润来源主要是赚取市场出清电价与用户签订售电合同价格的差值。比较常见的经营方式就是售电商与用户按照一定的比例分成。 设该售电商与用户签订的售电合同价格为P
G
其中:η为售电商与电力用户的分成比例。当η改变时,售电商的报价策略也会有一定的变化。
(2)对于扩张型售电商,其经营目标是扩大在市场中的成交电量,其主要目的是扩大自身在市场中的影响力,即在电力市场中扩大自己的市场份额。这种类型的售电商 并不考虑市场中的出清电价,设其日前市场的竞价电量是Q
G
假设条件
①售电商采用分时段阶梯报价方式报价,市场出清结算方式采用统一边际出清。
②在形成市场统一边际出清电价的过程中,需要进行安全校核,但为简化设计,线路上的功率传输损失将被忽略且不计线路上的输电阻塞。
③售电商的购电费用需考虑中长期差价合约,通过中长期差价合约可以规避现货市 场价格波动,合约电量均能保证按合约价格进行结算,提前锁定大部分收益,再全电量通过现货市场进行竞价出清,满足用户的负荷需求。
步骤S3:根据步骤S2建立的不同售电商的收益模型及目标模型,引入强化学习算法,并根据强化学习算法对模型中所有售电商的状态空间、动作空间、奖赏函数进行定 义,建立基于强化学习的现货市场售电商报价模型。
根据售电商竞价问题的特点,在模型中引入强化学习算法,并根据强化学习算法对 售电商的状态空间、动作空间、奖赏函数等基本的元素给出定义:
Q学习算法是一种与模型无关的强化学习算法,在Q学习的过程中,对于每个离散时间步长t,智能体(Agent)能够感知到当前状态s
Q值的更新规则为:
式中,β为控制学习速度的动态学习率;
动态学习率β的选择影响着算法的收敛性,其中β常见的更新规则为:
式中,T
根据强化学习算法(即Q学习)对售电商的状态空间、动作空间、奖赏函数等基本的元素给出定义:
(1)学习的幕
将算法的迭代任务分割为以日为单位的单独的幕。
(2)环境状态空间
假设售电商在日前市场中可以每小时报一条曲线,并选取每小时的市场出清电价和 下一个小时的负荷水平联合作为市场状态的划分。定义{p
(3)动作空间
假设售电商允许的报价段数为3段,故直接选取售电商第三段报价所报的价格策略 集作为动作集合。定义售电商i的动作空间:A
(4)奖赏
售电商i通过竞价所获得的利润R
r
其中,r
步骤S4:对步骤S3中建立的基于强化学习的现货市场售电商报价模型采用ε-贪心算法进行求解,结合市场出清电价和各售电商下一小时负荷水平,得到各售电商利润和 出清电量。
如附图2所示,对所述模型设计ε-贪心算法学习策略,针对所有售电商给出具体求解步骤:
1、划分状态空间,确定动作集合。首先确定实际电力市场的出清电价和负荷水平的边界,然后找出他们的最大值和最小值,最后划分二维市场状态下的状态空间,并确 定售电商报价的动作集合。售电商在交易日内为每小时申报一条报价曲线,可以将市场 状态划分为4×4个状态,如表4所示;而动作可以划分为表5所示,即在 {p
表4状态划分说明
单位:MWh,$/MWh
表5动作说明
单位:$/MWh
2、初始化。初始化各二维市场状态对应策略集中各策略的Q(s,a)=0,即Q值的初始值为0,
3、随机进行一次交易,得到的市场出清价格与下一小时负荷水平联合作为初始状态s
4、令T=1。
5、基于ε-贪心算法选择竞价策略。具体做法是:首先产生一个[0,1]之间的随机数h, 比较h与ε的大小,若h<ε,则以均匀概率随机从动作策略集中选取一个动作;若h≥ε,则选择市场状态s
6、针对所有售电商,确定售电商的收益r。
7、更新Q值。由当前出清电价和负荷水平得到下一个系统新状态,并且根据式(5)更新Q值。
8、T←T+1。
9、若T=T
本发明公开了基于强化学习的现货市场售电商报价方法,首先,对现货市场的竞价 与出清规则、交易流程进行设定;其次,根据给定的交易规则建立售电商收益模型,并且给出不同类型售电商的报价策略目标;最后,根据不同类型售电商的报价策略建立基 于Q学习的售电商报价策略模型,选取售电商市场报价作为选择的策略,建立市场出清 电价和下一小时负荷水平联合作为售电商的市场状态,有利于售电商选择收益最优的报 价策略行为;在Q学习过程中采用ε-贪心算法对售电商的策略选择进行模拟,同时给 出模型的求解流程。本发明相对于售电商传统报价行为,考虑尽可能多的影响因素的基 础上选择合适的报价策略,可解决售电商面对市场竞争时所面对的关键问题。鉴于实际 现货市场环境的不确定性,如何去选择最优的报价策略就显得十分必要。
实施例:
本实施例中以我国某省电力现货市场实际运行数据进行算例分析,对本发明的基于 强化学习的现货市场售电商报价方法的可行性进行验证。
本发明中模拟的市场环境包括10个售电商和3个发电商,均采用三段式阶梯报价。市场中各售电商报价时三段电量比例为1∶1∶1,其中售电商S1-S5面向的用户负荷为工业负荷,24小时内负荷曲线变化比较平稳但曲线的峰值相差较多,以分别表示大、中、小 型售电商,如图3所示;售电商S6-S10面向的用户负荷为混合负荷,主要包括居民用 电负荷、商业负荷等,日负荷需求曲线有比较明显的峰、平、谷时段的变化特征,为分 别表示大、中、小型售电商,每类负荷曲线的峰值相差较多,如图4所示。
日前电力市场中售电商及发电商基本三段报价信息分别如表1和表2所示,由于各市场成员为保证收益最大化,在交易日内的峰、平、谷时段会采取不同报价,表1、表 2也分别列出了三个不同时段典型的三段报价信息。在本发明中,所有售电商均采用基 于Q学习算法的报价策略,对第三段报价进行Q学习。
表1市场中各售电商基本三段报价信息
单位:$/MWh
表2市场中各发电商三段报价和电量信息
单位:MWh,$/MWh
为规避现货市场价格波动的风险,售电商可以通过签订中长期差价合约提前锁定部 分电量,本发明假设各售电商签订的差价合约价格均为55$/MWh,合约电量分解到每 天日前市场的电量占比情况如表3所示,具体分解到每个交易时段时可以根据这个时段 的需求电量等比例分配。在表3中,售电商S2、S5、S7、S8、S10的差价合约电量分解 到日前市场中的占比较低,表示这些售电商期望在日前市场中获得更低的购电价格。
表3差价合约分解到每天日前市场的电量占比情况
假设每个运营日的负荷曲线不发生变化,本实施例中选取某电网运行期间某典型日 的系统负荷数据,如图5所示。
为了验证基于Q学习售电商报价决策效果的有效性,将发明所建模型与基于RE算法(加强算法)的日前电力市场决策模型进行比较。
为便于比较分析,在此设定两个实验场景:在实验场景1中,所有售电商均采用基于Q学习算法的报价策略;在实验场景2中,售电商S8采用基于RE算法的报价策略, 其它售电商与实验场景1中相同,其中RE算法中参数设置为:遗忘因子μ取0.08,改 变冷却系数c大小的参数k取4。
对上述两个实验场景进行仿真,就其仿真结果进行对比分析。表4分别列出了实验场景1至2中售电商报价策略都进入稳定收敛状态后的利润:
表4实验场景1至2的仿真结果比较
通过分析该表内容可知,实验场景1中的售电商S8所获利润高于其在实验场景2中所获的利润,这在一定程度上说明,在相同的市场条件下,同一售电商采用基于Q学 习算法的报价策略进行竞价所获得的利润高于其采用RE算法进行报价。而在实验场景 2中除S8外其余售电商的利润相对于实验场景1下也发生了变化,说明售电商S8改变 报价策略后,市场竞争到达了一个新的均衡状态。通过上述仿真结果的分析,基本验证 了本发明的基于Q学习售电商报价决策效果的有效性。
在电力市场中,不同类型售电商会有各自不同的经营目标,并且在日前市场竞价过 程中,这些售电商会形成差异化的报价策略目标,继而出现不同的竞价行为趋向。通过对分成型、扩张型售电商Q学习过程的仿真,分析各自报价策略的倾向。
图6图7表示两种售电商学习曲线分别为25%、35%分成模式,分成模式售电商可以通过价格差额获取相应利润,这部分等同于用户付给售电商的“代购费”,从图中可 以看出报价策略最终趋于居中的价格区间,即售电商在多轮竞价之后,报价趋于居中价 格区间。
图8为扩张型售电商学习曲线,从其学习曲线可以看出这类售电商价格最终趋于较 高的价格。这类售电商以追求最大发电量为目标,在竞价过程中,售电商通过报高价来获取尽可能多的电量,以达到扩大市场份额的目标。因此本发明采用基于q学习算法的 报价策略,寻求各类基于利益导向的售电商最优报价决策。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员 来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
机译: 面向消费者的社交电子商务零售商市场和报价管理系统
机译: 使个人物品制造商能够控制零售商库存的方法,包括将无线电识别元件放在手表内,零售商扫描出售的物品并通过互联网将数据发送回制造商
机译: 利用私有和公共计算和通信技术为客户和服务提供商创建虚拟市场的系统。该系统自动执行由注册客户发布的服务相关工作请求的管理(工作管理系统),以寻求来自注册供应商的投标(出价,报价)回复以完成所述工作请求。该系统通过工作请求,验收和完成,对客户和供应商的评级,付款和供应商对账,提供完整的生命周期工作管理。