技术领域
本发明属于电力系统电量预测技术领域,涉及一种基于广义最大相关熵准则的核极限学习机售电量预测方法。
技术背景
电量预测是在分析历史数据与影响因素的前提下,对未来一段时间内的电能消耗量的预报。当下的电力市场中,无论是发电侧还是售电侧,电量预测都是一项非常重要的工作。尤其是对于售电公司而言,由于偏差考核机制的颁布,售电量预测的准确性直接影响偏差评估,而且偏差越大,处罚越高,然而售电量因受随机因素影响较大难以准确预测,因此对高精度售电量预测算法研究具有重要的实际工程价值与理论意义。
目前售电量预测大多是针对小客户而非大区域,随机性强,受突变因素影响大,易产生离群值,预测误差大多服从非高斯分布。针对售电量预测,一些学者提出了许多预测模型,大致分为两类:传统预测模型与机器学习预测模型。传统预测模型包括自回归滑动平均模型、时间序列法等。传统方法的理论基础主要是线性模型,因为售电量受随机因素影响大,非线性强,传统方法无法描述售电量数据的非线性和随机性。机器学习预测模型如支持向量机回归、人工神经网络等可以很好的处理各种影响因素和非线性数据,并在售电量预测中得到了广泛的应用。传统机器学习算法的代价函数是基于均方误差准则,其仅考虑误差分布的二阶矩,对预测误差服从高斯分布的数据可以进行有效预测,在预测平稳序列时才有较高精度,但其对非线性非高斯的售电量预测时就难以满足实际工程中售电交易对售电量预测精度的需求。
发明内容
本发明的目的是提出一种基于广义最大相关熵准则的核极限学习机售电量预测方法,解决了现有技术对售电量预测精度不高,难以满足售电交易对售电量预测精度要求的问题。
本发明采用的技术方案是,基于广义最大相关熵准则的核极限学习机售电量预测方法,按照以下步骤实施:
步骤1、数据预处理
对历史日用电量数据中的异常数据进行修正,并对缺失数据进行补充;
步骤2、构建训练样本集
以历史日用电量以及所对应日最高温度作为模型的训练样本集,并利用皮尔逊相关系数选定模型输入,
皮尔逊相关系数计算公式如式(3):
其中,x为训练样本集数据,包括历史用电量数据与温度数据,t为历史用电量数据;
步骤3、数据标准化
电量预测时主要用到的数据有历史日用电量数据和与之相对应的历史温度数据,为了减小因两种数据数量级相差较大对预测准确性造成的影响,对数据进行标准化处理,标准化公式如式(4):
其中,x
步骤4、针对历史日用电量数据的非线性特征,选用核极限学习机模型KELM对日用电量进行预测,针对售电量预测误差的非高斯特征,使用广义最大相关熵准则GMCC代替核极限学习机中均方误差准则MSE作为预测模型的代价函数;
步骤5、引入在线序列学习,使预测模型可以进行滚动预测;
步骤6、引入K-折交叉验证与网格寻优对广义最大相关熵核极限学习机模型的关键参数σ、λ、α进行优化;
步骤7、用广义最大相关熵核极限学习机预测模型对售电量进行预测,得到预测结果,并选用MAPE指标对预测结果进行评价:
本发明的特点还在于,
步骤1的具体过程是:
对历史日用电量数据中的异常数据进行修正,并对缺失数据进行补充,当数据满足
此外,根据式(2)对历史用电量中的异常数据与缺失数据进行修正:
其中,t
步骤4的具体过程是:
普通ELM模型可表示为
据此有
为了使式(6)具有稳定的泛化性,引入正则化系数到矩阵HH
其中,T为训练样本真实值矩阵,H为激励函数矩阵形式,C为正则化系数;
ELM核矩阵表达式如下:
Ω
且高斯核函数的表达式为:
其中,σ为核参数,则核极限学习机模型可表达为
其中,T为训练样本真实值矩阵,H为激励函数矩阵形式,C为正则化系数,记
y(x)=k(x)β (11)
传统核极限学习机模型代价函数是均方误差准则,该准则是全局相似性度量准则,对离群值敏感,仅考虑误差分布的二阶矩,对预测误差满足高斯分布的数据有较高预测精度,然而目前日售用电受突发影响因素影响大,售电数据波动性大,非线性强,且预测误差不满足高斯分布,此时用传统核极限学习机模型预测售电量,难以得到理想的预测精度,为解决此问题,采用广义最大相关熵准则代替均方误差准则,使核极限学习机模型在训练样本满足非线性、非高斯分布的情况下,也可以训练得到合适的参数、有效预测出售电量,广义最大相关熵的表达式见(12):
其中,α>0是形状参数,λ>0是广义高斯密度函数的核参数,γα
步骤5的具体过程是:
将在线序列学习与ELM结合,当数据更新时,只需要学习新数据并更新参数,而不需要重复学习旧数据,极大缩短模型的训练时间;引入在线序列学习之后,得出网络输出权值β的更新公式:
其中,N
步骤6中,具体过程是:
引入K-折交叉验证与网格寻优对广义最大相关熵核极限学习机模型的关键参数σ、λ、α进行优化。首先根据样本实际情况给定每个参数取值范围,再将每个参数区间分为若干网格,其中每个网格代表一组参数,选取令广义最大相关熵值最大的网格所对应的参数为模型最优参数。
本发明的有益效果是,在核极限学习机预测模型的基础上,针对该模型的代价函数,即均方误差准则仅考虑误差分布的二阶矩,对离群值敏感,导致预测结果受离群值影响大的问题,引入广义最大相关熵准则代替均方误差准则作为核极限学习机模型中的代价函数,并引入K-折交叉验证与网格寻优,对参数进行优化,使参数具有普适性,最后将在线序列学习运用到该模型,使模型可以滚动预测。均方误差准则是全局相似性度量准则,广义最大相关熵准则是局部相似性度量准则,故广义最大相关熵在离群值大且非高斯的情况下也具有好的性能,与现有的传统机器学习算法相比,基于广义最大相关熵的核极限学习机能更好的对非高斯非线性数据进行预测,有效提高预测精度,在线序列学习的引入使模型更贴合工程实际,有效缩短模型训练时间。
附图说明
图1是本发明预测方法的总流程示意图;
图2是本发明预测方法实施例的结果示意图。
具体实施方式
参照图1,本发明的电量预测方法,按照以下步骤实施:
步骤1、数据预处理
对历史日用电量数据中的异常数据进行修正,并对缺失数据进行补充。当数据满足
此外,根据式(2)对历史用电量中的异常数据与缺失数据进行修正:
其中,t
步骤2、构建训练样本集
以历史日用电量以及所对应日最高温度作为模型的训练样本集,并利用皮尔逊相关系数选定模型输入。皮尔逊相关系数计算公式如式(3):
其中,x为训练样本集数据,包括历史用电量数据与温度数据,t为历史用电量数据。
步骤3、数据标准化
电量预测时主要用到的数据有历史日用电量数据和与之相对应的历史温度数据,为了减小因两种数据数量级相差较大对预测准确性造成的影响,应对数据进行标准化处理,标准化公式如式(4):
其中,x
步骤4、针对历史日用电量数据的非线性特征,选用核极限学习机模型对日用电量进行预测。使用广义最大相关熵准则代替核极限学习机中均方误差准则作为预测模型的代价函数。
普通ELM模型可表示为
据此有
为了使式(6)具有稳定的泛化性,引入正则化系数到矩阵HH
其中,T为训练样本真实值矩阵,H为激励函数矩阵形式,C为正则化系数。
ELM核矩阵表达式如下:
Ω
且高斯核函数的表达式为:
其中,σ为核参数,则核极限学习机模型可表达为
记
y(x)=k(x)β (11)
传统核极限学习机模型代价函数是均方误差准则,该准则是全局相似性度量准则,对离群值敏感,仅考虑误差分布的二阶矩,对预测误差满足高斯分布的数据有较高预测精度,然而目前日售用电受突发影响因素影响大,售电数据波动性大,非线性强,且预测误差不满足高斯分布,此时用传统核极限学习机模型预测售电量,难以得到理想的预测精度,为解决此问题,采用广义最大相关熵准则代替均方误差准则,使核极限学习机模型在训练样本满足非线性、非高斯分布的情况下,也可以训练得到合适的参数、有效预测出售电量。广义最大相关熵的表达式见(12):
其中,α>0是形状参数,λ>0是广义高斯密度函数的核参数,γα
步骤5、引入在线序列学习,使模型可以进行滚动预测。
在实际售电量预测中,数据会随着时间不断更新,若新旧数据一起训练,会因数据量大花费时间长,针对此问题,将在线序列学习与ELM结合,当数据更新时,只需要学习新数据并更新参数,而不需要重复学习旧数据,这就极大缩短模型的训练时间。引入在线序列学习之后,得出网络输出权值β的更新公式:
其中,N
步骤6、引入K-折交叉验证与网格寻优对广义最大相关熵核极限学习机模型的关键参数σ、λ、α进行优化。首先根据样本实际情况给定每个参数取值范围,再将每个参数区间分为若干网格,其中每个网格代表一组参数,选取令广义最大相关熵值最大的网格所对应的参数为模型最优参数。
步骤7、用广义最大相关熵核极限学习机预测模型对售电量进行预测,得到预测结果,并选用MAPE指标对预测结果进行评价:
实施例
步骤1、应用式(1)、式(2)对历史售电量数据中的异常数据进行筛选和修正。
步骤2、使用某售电公司对某客户2018年1月1日-2018年5月3日的售电量数据以及对应日最高温度建立训练样本集。
步骤3、应用式(4)对历史售电量数据、温度数据进行归一化处理。
步骤4、用基于广义最大相关熵准则的核极限学习机预测模型进行训练,训练第t天售电量时模型的输入为第t-7、t-14天的日用电量、日最高温度以及第t天的日最高温度。应用式(13)对预测模型参数β进行更新。
步骤5、应用式(11)得出售电量的训练值。
步骤6、应用K-折交叉验证法与网格寻优,得出广义最大相关熵值最大时所对应的关键参数σ、λ、α的最优值。
步骤7、用测试集的数据对已训练好的模型进行测试。利用已确定的参数以及更新的网络输出权值β,预测之后一个月(2018年5月4日-2018年6月3日)的日售电量,并用指标MAPE评价预测模型的有效性。
步骤8、将基于广义最大相关熵准则的核极限学习机预测模型与极限学习机、基于广义最大相关熵准则的极限学习机预测模型进行比较,预测结果及预测误差对比见表1。
表1
由表1和图2可见,本发明方法(即基于广义最大相关熵准则的核极限学习机方法)的预测精度更高,方法更有效,且预测准确率可满足实际需求。
本发明方法,基于广义最大相关熵准则的核极限学习机的售电量预测方法,在核极限学习机预测模型的基础上,针对该模型的代价函数,即均方误差准则仅考虑误差分布的二阶矩,对离群值敏感,导致预测结果受离群值影响大的问题,引入广义最大相关熵准则代替均方误差准则作为核极限学习机模型中的代价函数,并引入K-折交叉验证与网格寻优,对参数进行优化,使参数具有普适性,最后将在线序列学习运用到该模型,使模型可以滚动预测,更贴合工程实际,有效缩短模型训练时间。该方法首次应用于电力系统售电量预测,并且可以有效对用户售电量进行预测,具有关键的理论意义与实际工程价值。
机译: 从多元数据中选择特征的最大熵和最大似然准则
机译: 从多元数据中选择特征的最大熵和最大似然准则
机译: 从多元数据中选择特征的最大熵和最大似然准则