首页> 中国专利> 基于聚类的典型日负荷曲线选取方法及装置

基于聚类的典型日负荷曲线选取方法及装置

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

基于聚类的典型日负荷曲线选取方法及装置，该方法包括：读入时间跨度内的曲线，确定典型日负荷曲线条数k，选k条曲线作为集合中心；将各曲线归入最近的集合中心所在集合(S3)；计算新集合中心并判断与上次的是否相同，若否，判断与上次的目标函数的差是否在预设范围内，若否，返回S3，若相同或在范围内，将各集合中与集合中心最近的曲线定为典型日负荷曲线。本发明基于聚类思想，对所有日负荷曲线进行整体把握，生成的集合内部样本相似、不同集合样本相异，利于发现全局分布模式，避免计算单一指标或进行平均化处理，可减少随机及主观因素的影响，降低直接提取单一曲线对坏数据的敏感程度，更适于发现大规模数据的隐藏规律，更能表征整体规律。

著录项

公开/公告号CN102156814A

专利类型发明专利
公开/公告日2011-08-17

原文格式PDF
申请/专利权人广东省电力设计研究院;
展开▼

申请/专利号CN201110085601.3
发明设计人李智勇;陈志刚;徐政;付超;张仕鹏;刘云;
展开▼

申请日2011-04-06
分类号G06F19/00(20060101);H02J3/00(20060101);
代理机构44224 广州华进联合专利商标代理有限公司;
代理人黄晓庆;王茹
地址 510663 广东省广州市萝岗区广州科学城天丰路1号
入库时间 2023-12-18 03:00:25

法律信息

法律状态公告日

法律状态信息

法律状态
2015-05-06

专利权人的姓名或者名称、地址的变更 IPC(主分类):G06F19/00 变更前: 变更后: 申请日:20110406

专利权人的姓名或者名称、地址的变更
2014-05-21

授权

授权
2013-01-30

著录事项变更 IPC(主分类):G06F19/00 变更前: 变更后: 申请日:20110406

著录事项变更
2011-09-28

实质审查的生效 IPC(主分类):G06F19/00 申请日:20110406

实质审查的生效
2011-08-17

公开

公开

说明书

技术领域

本发明涉及电力系统领域，特别涉及一种基于聚类的典型日负荷曲线选取方法及一种基于聚类的典型日负荷曲线选取装置。

背景技术

在电力系统中，负荷曲线是指电力系统中电力负荷随时间变化的曲线，横坐标是时间，纵坐标一般是有功功率，而日负荷曲线是指一日内的负荷曲线，图1中示出了某年某省统调负荷数据中的两条日负荷曲线，其采样间隔为15分钟，故每条日负荷曲线由96个点组成。而日负荷率是表征日负荷特性的一个指标，定义为日平均负荷与日最大负荷的比值。

典型日负荷曲线是一段时间内的日负荷曲线中最具有代表意义的曲线，是分析地区用电特点和影响因素、预估负荷特性变化趋势的基础，也是进行系统电源结构、调峰容量及互联系统错峰的依据，长期以来一直是电力系统的基础工作之一。目前对典型日的选取并没有统一的规定，使得不同地区的典型日负荷特性指标不便进行横向比较。长期以来，典型日的确定主要从简单实用的角度出发，或选取最大负荷日，或选取某一特定日，或基于简单的加权平均，主要有下述四种方式：

其一、选择某个时期内最大负荷日的日负荷曲线作为典型日负荷曲线，最大负荷日曲线可用来审核极端情况下的运行方式和系统调峰能力，在一定程度上也可表征该地区的日用电特性，该方法简便易操作，但是对噪声或者坏数据敏感；

其二、直接选取某月的固定工作日的日负荷曲线作为典型日负荷曲线，例如选取每月15日、或者第三周的第3个工作日等等，这种处理方式缺乏依据，且无法避免随机因素的影响；

其三：按照某种规律选择一定天数的日负荷曲线，再相加取平均，将平均后得到的曲线作为典型日负荷曲线。应用这种方式，可以在一定程度上消除随机因素的影响，但是，由于“平均化”的影响，使得由此所得的典型日负荷曲线的最小负荷变大、最大负荷变小，使得曲线的变化幅度认为地发生了改变；

其四：选取日负荷率与某时期内平均日负荷率最接近的工作日为典型日，将其对应的日负荷曲线作为典型日负荷曲线。日负荷率是负荷曲线特性指标，但不能表征整条曲线形状。以图2为例，图中所示的两条曲线均为某年某地统调负荷的日负荷曲线，对应的日负荷率非常接近，均为0.81至0.82之间，但两条曲线的形状非常不相似，因此仅通过日负荷率或者其他单一的日负荷特性指标来选取也会存在局限性。

发明内容

针对上述现有技术中存在的问题，本发明的目的在于提供一种基于聚类的典型日负荷曲线选取方法及一种基于聚类的典型日负荷曲线选取装置，其可以发现大规模数据的隐藏规律、减少随机及主观因素的影响，能够表征出整体规律。

为达到上述目的，本发明采用以下技术方案：

一种基于聚类的典型日负荷曲线选取方法，包括步骤：

步骤一、读入预设时间跨度内的各日负荷曲线，进入步骤二；

步骤二、确定典型日负荷曲线的条数k，并选取k条日负荷曲线作为集合中心，进入步骤三；

步骤三、分别计算各日负荷曲线与各集合中心的距离，将各日负荷曲线归入与其距离最近的集合中心所在的集合，进入步骤四；

步骤四、计算各集合的样本均值，将该样本均值作为该集合的新的集合中心，进入步骤五；

步骤五、判断该新的集合中心与上一次的集合中心是否相同，若不相同，进入步骤六，若相同，进入步骤七；

步骤六、判断当前集合的目标函数与上一次集合的目标函数的差值是否在预设范围内，若否，返回上述步骤三，若是，进入步骤七；

步骤七、将当前各集合中与集合中心距离最近的曲线确定为典型日负荷曲线。

一种基于聚类的典型日负荷曲线选取装置，包括：

曲线读入单元，用于读入预设时间跨度内的各日负荷曲线；

条数确定单元，用于确定典型日负荷曲线的条数k；

初始集合中心单元，用于选取k条日负荷曲线作为集合中心；

集合单元，用于在所述初始集合中心单元确定了集合中心之后、或者在集合中心判定单元的判定结果为否时、或者目标函数判定单元的判定结果为否时，分别计算各日负荷曲线与各集合中心的距离，将各日负荷曲线归入与其距离最近的集合中心所在的集合，并计算各集合的样本均值，将该样本均值作为该集合的新的集合中心；

集合中心判定单元，用于判断该所述集合单元确定的新的集合中心与上一次的集合中心是否相同；

目标函数判定单元，用于判断当前集合的目标函数与上一次集合的目标函数的差值是否在预设范围内；

典型日负荷曲线判定单元，用于在所述集合中心判定单元的判定结果为相同、或者目标函数判定单元的判断结果为是时，将当前各集合中与集合中心距离最近的曲线确定为典型日负荷曲线。

根据上述本发明方案，其是基于聚类的思想，对所有的数据样本(日负荷曲线)进行整体把握，生成的数据集合具有内部样本相似、不同集合样本相异的特点，从而可以有利于发现全局的分布模式，较传统方式而言，避免了计算单一指标或者进行平均化处理，可以减少随机因素及主观因素的影响，同时降低了直接提取单一曲线对坏数据的敏感程度，更适合于发现大规模数据的隐藏规律，通过对全局数据的迭代分析，更能够表征出整体规律。

附图说明

图1是某年某地统调负荷的其中两条日负荷曲线的示意图；

图2是某年某地统调负荷的另外两条日负荷曲线的示意图；

图3是本发明基于聚类的典型日负荷曲线选取方法实施例的流程示意图；

图4是一个聚类样本的示意图；

图5是本发明基于聚类的典型日负荷曲线选取装置实施例的结构示意图；

图6是某地某年全年的日负荷曲线示意图；

图7不同的簇个数对应的DBindex指标的示意图；

图8是采用本发明方案对图6的日负荷曲线得到的第1条典型日负荷曲线的示意图；

图9是采用本发明方案对图6的日负荷曲线得到的第2条典型日负荷曲线的示意图；

图10是采用本发明方案对图6的日负荷曲线得到的第3条典型日负荷曲线的示意图。

具体实施方式

以下结合实施例对本发明方案进行详细阐述。

如图3所示，是本发明的基于聚类的典型日负荷曲线选取方法实施例的流程示意图，如图3所示，其包括步骤：

步骤S101、读入预设时间跨度内的各日负荷曲线，进入步骤S 102；

步骤S102、确定典型日负荷曲线的条数k，进入步骤S103；

步骤S103：选取k条日负荷曲线作为集合中心，进入步骤S104；

步骤S104、分别计算各日负荷曲线与各集合中心的距离，将各日负荷曲线归入与其距离最近的集合中心所在的集合，进入步骤S105；

步骤S105、计算各集合的样本均值，将该样本均值作为该集合的新的集合中心，进入步骤S106；

步骤五、判断该新的集合中心与上一次的集合中心是否相同，若不相同，进入步骤S107，若相同，进入步骤S108；

步骤S107、判断当前集合的目标函数与上一次集合的目标函数的差值是否在预设范围内，若否，返回上述步骤S104，若是，进入步骤S108；

步骤S108、将当前各集合中与集合中心距离最近的曲线确定为典型日负荷曲线。

上述本发明方法，是基于聚类的思想，对所有的数据样本(日负荷曲线)进行整体把握，生成的数据集合具有内部样本相似、不同集合样本相异的特点，从而可以有利于发现全局的分布模式，较传统方式而言，避免了计算单一指标或者进行平均化处理，可以减少随机因素及主观因素的影响，同时降低了直接提取单一曲线对坏数据的敏感程度，更适合于发现大规模数据的隐藏规律，通过对全局数据的迭代分析，更能够表征出整体规律。

聚类的基本思想，是将全部数据样本按照相似度分成多个类或者簇，在同一个簇中的样本之间具有较高的相似度，而不同簇中样本的差别较大。这里的相似度可以理解为两个样本在空间中的距离，一般采用欧式距离或者曼哈顿距离，欧式距离表示为：

$d (X, Y) = \sqrt{{(x_{1} - y_{1})}^{2} + {(x_{2} - y_{2})}^{2} + . . . + {(x_{m} - y_{m})}^{2}}$

依据该欧式距离，可以得知，d(X，Y)则两个样本X与Y越相似。

因此，在上述确定典型日负荷曲线的条数k时，k的取值可以根据实际分析的需要自己定义，例如工作人员依据样本本身的相似度来设定，这是因为，从数学角度上来说，样本本身的相似程度(例如空间中的距离)已经决定了其最佳的分类个数，簇内距离尽可能小，簇间距离尽可能大，以图4中所示的聚类样本的示意图为例，k的最佳个数为4，工作人员观测该样本示意图即可直接设定。

在优选情况下，可以通过计算聚类指标，依据聚类指标来确定k值。以下针对通过聚类指标确定k值的过程进行详细说明。

通过聚类指标确定k值的方式，是将簇个数分别设定为不同的值，通过计算不同的簇个数(即k个数)下的聚类指标，综合各聚类指标来选取对应的簇个数(k值)来设定为典型日负荷曲线的个数k。

聚类指标可通过下述公式来计算：

$DBindex = \frac{Σ_{m = 1}^{k} Σ_{n = 1}^{k} R (m, n)}{k (k - 1)}, m \neq n$

其中， $R (m, n) = \frac{\frac{Σ_{p = 1}^{N_{m}} | | {cm}_{p} - {cx}_{m} | |}{N_{m}} + \frac{Σ_{q = 1}^{N_{n}} | | {cn}_{q} - {cx}_{n} | |}{N_{n}}}{| | {cx}_{m} - {cx}_{n} | |}, m \neq n$

式中，DBindex表示聚类指标，k表示簇个数，||·||表示两条样本之间的距离，cx_m是第m个簇的簇心，cx_n是第n个簇的簇心，cm和cn分别为属于第m个簇和第n个簇的所有样本，N_m和N_n为第m个簇和第n个簇的样本个数。其中，簇心cx_m、cx_n可以通过最经典的聚类算法k-均值法获得，也可以通过其他的方式获得。

观察上式可以发现，R(m，n)的分母为第m个和第n个簇的簇心之间的距离，其分子为第m个和第n个簇的簇内平均距离。因此DBindex可以从整体上表征聚类的效果，即簇内越紧密(距离小)，簇间越稀疏(距离大)，则DBindex值越小，可为典型样本个数的选取提供依据。

在依据各簇个数对应的聚类指标来设定典型日负荷曲线的个数时，可以依据情况进行综合设定，例如聚类指标趋于稳定的拐点、聚类指标最小的点等等。依据如上对聚类指标DBindex的分析，DBindex越小，簇内越紧密，DBindex越大，簇内越稀疏，因此，通常情况下，可将最小的聚类指标对应的簇个数设定为典型日负荷曲线的条数k。依据实际应用的需要，可以采用不同的方式来通过聚类指标确定k。

在一个具体示例中，首先读入待分析的时间跨度内的全部n条曲线，例如，若要分析一整年的数据，则n＝365或者n＝366。

随后，针对这全部n条曲线，确定典型曲线的条数k，确定了k的值之后，从全部的n条日负荷曲线中选取k条曲线作为初始集合中心(j＝1，2...k)，这k条曲线可以任意、随机选取。

随后，计算各曲线X_i与各集合中心C_j^s间的距离d_i，j：d_i，j＝||X_i-C_j^s||

式中，i＝1，2...n，j＝1，2...k，s表示当前迭代的次数。

随后，根据每条日负荷曲线与各集合中心间的距离，选择与之最相似的集合中心，逐一归入各集合中心所代表的集合：

即：若则然后计算各集合的样本均值，作为新的集合中心：C_j^s+1＝mean(Φ_j)，式中C_j^s+1代表新的集合中心，mean(Φ_j)代表计算得出的样本均值。

然后判断得出的新的集合中心与上一次迭代的集合中心有没有发生变化：如果没有发生变化，即C_j^s+1＝C_j^s，则说明当前的聚类已经是最佳聚类，结束迭代过程，直接进入最后一步，从各集合中分别选取距离集合中心最近的日负荷曲线，作为典型日负荷曲线；

如果有发生变化，则说明无法确定当前聚类是不是最佳聚类，进一步判断两次迭代的目标函数的差值是否在预设范围内，即两次迭代的目标函数的差是否小于允许值：|E^s+1-E^s|＜ε，如果是小于，则说明当前聚类已经能够符合要求，则结束迭代过程，进入最后一步，从各集合中分别选取距离集合中心最近的日负荷曲线，作为典型日负荷曲线，否则的话，返回步骤S104中继续迭代，重新对各日负荷曲线与当前的集合中心的距离进行计算、对各日负荷曲线重新进行归类。

其中，上述ε的值可以依据实际需要进行设定，目标函数E可以是平方误差准则函数

根据上述本发明的基于聚类的典型日负荷曲线选取方法，本发明还提供一种基于聚类的典型日负荷曲线选取装置，如图5所示，是本发明基于聚类的典型日负荷曲线选取装置实施例的结构示意图，其包括有：

曲线读入单元201，用于读入预设时间跨度内的各日负荷曲线；

条数确定单元202，与上述曲线读入单元201相连接，用于确定典型日负荷曲线的条数k；

初始集合中心单元203，与上述条数确定单元202相连接，用于选取k条日负荷曲线作为集合中心；

集合单元204，与上述初始集合中心单元203相连接，用于在上述初始集合中心单元203确定了集合中心之后、或者在集合中心判定单元205的判定结果为不相同时、或者目标函数判定单元206的判定结果为否时，分别计算各日负荷曲线与各集合中心的距离，将各日负荷曲线归入与其距离最近的集合中心所在的集合，还用于计算各集合的样本均值，并将该样本均值作为该集合的新的集合中心；

集合中心判定单元205，与上述集合单元204相连接，用于判断该集合单元204确定的新的集合中心与上一次的集合中心是否相同；

目标函数判定单元206，与上述集合单元204、集合中心判定单元205相连接，用于判断当前集合的目标函数与上一次集合的目标函数的差值是否在预设范围内；

典型日负荷曲线判定单元207，与上述集合中心判定单元205、目标函数判定单元206相连接，用于在上述集合中心判定单元205的判定结果为相同、或者上述目标函数判定单元206的判断结果为是时，将当前各集合中与集合中心距离最近的曲线确定为典型日负荷曲线。

上述本发明装置，是基于聚类的思想，对所有的数据样本(日负荷曲线)进行整体把握，生成的数据集合具有内部样本相似、不同集合样本相异的特点，从而可以有利于发现全局的分布模式，较传统方式而言，避免了计算单一指标或者进行平均化处理，可以减少随机因素及主观因素的影响，同时降低了直接提取单一曲线对坏数据的敏感程度，更适合于发现大规模数据的隐藏规律，通过对全局数据的迭代分析，更能够表征出整体规律。

在上述确定典型日负荷曲线的条数k时，k的取值可以根据实际分析的需要自己定义，例如工作人员依据样本本身的相似度来设定，这是因为，从数学角度上来说，样本本身的相似程度(例如空间中的距离)已经决定了其最佳的分类个数，簇内距离尽可能小，簇间距离尽可能大，以图4中所示的聚类样本的示意图为例，k的最佳个数为4，工作人员观测该样本示意图即可直接设定。

在优选情况下，可以通过计算聚类指标，依据聚类指标来确定k值。因此，上述条数确定单元具体包括：

簇个数设定单元，用于设定不同的簇个数；

聚类指标计算单元，用于分别计算各不同的簇个数情况下的聚类指标；

比较判定单元，用于根据聚类指标计算单元计算得出的聚类指标的值设定所述典型日负荷曲线的条数k。

以下针对通过聚类指标确定k值的过程进行详细说明。

聚类单元在计算聚类指标时，可通过下述公式来计算：

$DBindex = \frac{Σ_{m = 1}^{k} Σ_{n = 1}^{k} R (m, n)}{k (k - 1)}, m \neq n$

其中， $R (m, n) = \frac{\frac{Σ_{p = 1}^{N_{m}} | | {cm}_{p} - {cx}_{m} | |}{N_{m}} + \frac{Σ_{q = 1}^{N_{n}} | | {cn}_{q} - {cx}_{n} | |}{N_{n}}}{| | {cx}_{m} - {cx}_{n} | |}, m \neq n$

式中，DBindex表示聚类指标，k表示簇个数，||·|表示两条样本之间的距离，cx_m是第m个簇的簇心，cx_n是第n个簇的簇心，cm和cn分别为属于第m个簇和第n个簇的所有样本，N_m和N_n为第m个簇和第n个簇的样本个数。其中，簇心cx_m、cx_n可以通过最经典的聚类算法k-均值法获得，也可以通过其他的方式获得。

比较判定单元在依据各簇个数对应的聚类指标来设定典型日负荷曲线的个数k时，可以依据情况进行综合设定，例如聚类指标趋于稳定的拐点、聚类指标最小的点等等。依据如上对聚类指标DBindex的分析，DBindex越小，簇内越紧密，DBindex越大，簇内越稀疏，因此，通常情况下，可将最小的聚类指标对应的簇个数设定为典型日负荷曲线的条数k。依据实际应用的需要，可以采用不同的方式来通过聚类指标确定k。

上述目标函数的设定可以与上述本发明的基于聚类的典型日负荷曲线选取方法中的相同，在此不予赘述。

根据上述本发明基于聚类的典型日负荷曲线选取方法及装置，以下就一个具体示例进行详细阐述。

如图6所示，是某地某年全年时间段内的365条统调日负荷曲线的示意图，每日曲线为96个采样点，即采样间隔15分钟。图中可以发现有些曲线有突变幅度过大的毛刺，可能是系统采集的坏数据。对坏数据通常可采用修正的预处理，但为了说明本发明方案不易受噪声和随机因素的影响，可保持原始数据不变。

读入待分析的上述365条曲线后，首先确定聚类的个数k，即“典型日”的个数。传统分析中常对典型日负荷曲线按照季节分别选取，如夏季和冬季各选取一条，或者四个季节分别选取。本发明方案采用DBindex，即聚类指标，来推荐k的取值：

集合个数的最佳取值应符合聚类的思想，同一类别内样本距离尽可能小，而类别间的距离尽可能大。图7计算了这些样本在不同k取值(簇个数)下的DBindex指标的示意图。由图可知，在k取2时不能取得较好的聚类效果，即归为同一类的样本中仍有些许彼此相异，因此提取出的典型负荷曲线不能代表部分样本，而k取3及以后的个数时，指标下降并趋于稳定，因此在实际分析时不妨取拐点k＝3。

随后，通过选取k＝3，采用上述本发明方案进行迭代，最终获得三条典型日负荷曲线，这三条典型日负荷曲线分别如图8、图9、图10所示，其分别代表了该地春秋冬季、夏季和长假的日用电情况。

上述本发明方案，通过采用基于聚类的思想，为典型日负荷曲线的选取提供客观合理的方法。通过相似性进行迭代，使得距离近(相似性高)的样本不断聚集成为同一集合，集合的中心样本作为典型的曲线。传统的按照最大负荷出现时间或者按照指定工作日选取的方法，主观且随机。而且本发明采取的处理方法从曲线本身出发，避免计算特性指标(如日负荷率)产生的偏差。

此外，本发明方案通过计算聚类指标DBindex为集合个数的选择提供依据，即典型日的个数由数据自身的特性而决定。传统的负荷特性曲线选取通常按照季节简单化处理，即按月份划分集合。而本发明示例所示的某地的数据分析可知，如此划分没有考虑到长假的特殊用电方式，会忽略某些隐藏的模式，而且春秋冬三季用电特性由于广东省所处地理位置和用电习惯并没有太大差别。

以上所述的本发明实施方式，仅仅是对本发明的较佳实施方式的详细说明，并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的权利要求保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于聚类的典型日负荷曲线选取方法及装置 [P] . 中国专利： CN102156814B . 2014.05.21
2. 基于聚类的样条插值典型日负荷曲线选取装置 [P] . 中国专利： CN108205721B . 2021.11.02
3. Using the clustering which is based on huichiya, method and the device which form typical profile in order to nominate the item which has interest [P] . 日本专利： JP2005509968A . 2005-04-14

机译：使用基于huichiya的聚类，方法和形成典型配置文件的设备来提名感兴趣的项目
4. METHOD AND APPARATUS FOR PERSON-BASED PHOTO CLUSTERING IN DIGITAL PHOTO ALBUM, AND PERSON-BASED DIGITAL PHOTO ALBUMING METHOD AND APPARATUS USING IT [P] . 韩国专利： KR20060048225A . 2006-05-18

机译：数字照片专辑中基于个人的照片聚类的方法和装置，以及使用它的基于个人照片的数字聚类方法和装置
5. Clustered dot-screen design method, a device to perform the clustered dot-screen design method based on human vision and printer model characteristics, and an image-forming apparatus to output binary images on a designed screen [P] . 美国专利： US8149464B2 . 2012-04-03

机译：聚类点屏设计方法，基于人的视觉和打印机模型特征执行聚类点屏设计方法的设备以及在设计的屏幕上输出二进制图像的图像形成装置