首页> 中国专利> 一种基于多源数据的电费回收风险预测方法及其应用

一种基于多源数据的电费回收风险预测方法及其应用

摘要

本申请公开了一种基于多源数据的电费回收风险预测方法及其应用。该方法包括:采集电网计费系统内存储的第一用户数据以及非电网计费系统内存储的第二用户数据,将所述第一用户数据和所述第二用户数据进行数据融合处理并提取用户特征;基于所述用户特征将用户划分为若干个用户集合,定义自用户开户到因拖欠电费销户的时长为用户生存周期,设置所述用户集合的用户生存周期的概率分布模型,并基于所述用户集合中的用户数据确定所述概率分布模型中的分布参数;根据所述概率分布模型预测所述用户集合的用户生存周期,输出所述用户集合的电费回收风险第一预测结果。本发明可以有效提高风险预测的准确性,帮助电力企业降低成本。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    实质审查的生效 IPC(主分类):G06Q10/06 专利申请号:2022105615613 申请日:20220523

    实质审查的生效

说明书

技术领域

本申请涉及电力技术领域,更具体地,涉及一种基于多源数据的电费回收风险预测方法及其应用。

背景技术

电费回收指的是电力公司在向用户提供电能后,向用户收取费用的过程,是电力公司核心经济来源。随着大数据技术的发展,基于大数据的电费回收风险预测越来越被广泛地使用。但是现有技术中,电费回收风险预测仍然存在预测准确度不高的问题。

发明内容

针对现有技术的至少一个缺陷或改进需求,本发明提供了一种基于多源数据的电费回收风险预测方法及其应用,有效提高风险预测的准确性,帮助电力企业降低成本。

为实现上述目的,按照本发明的第一个方面,提供了一种基于多源数据的电费回收风险预测方法,包括:

采集电网计费系统内存储的第一用户数据以及非电网计费系统内存储的第二用户数据,将所述第一用户数据和所述第二用户数据进行数据融合处理并提取用户特征;

基于所述用户特征将用户划分为若干个用户集合,定义自用户开户到因拖欠电费销户的时长为用户生存周期,设置所述用户集合的用户生存周期的概率分布模型,并基于所述用户集合中的用户数据确定所述概率分布模型中的分布参数;

根据所述概率分布模型预测所述用户集合的用户生存周期,输出所述用户集合的电费回收风险第一预测结果。

进一步地,所述数据融合处包括根据用户身份标识识别所述第一用户数据和所述第二用户数据的重合用户,并将所述第一用户数据和所述第二用户数据中与同一用户身份标识对应的数据关联到该同一身份标识。

进一步地,将所述用户集合的用户生存周期的概率分布模型记为f(t);

用户生存周期预测值的计算公式为:

S(t)=1-F(t)

式中,S(t)为时刻t的用户生存周期预测值,f(s)为在时刻s的f(t)取值;

所述电费回收风险预测结果的计算公式为:

式中,h(t)为时刻t的电费回收风险预测结果。

进一步地,若f(t)=μe

进一步地,基于多源数据的电费回收风险预测方法,还包括步骤:构建基于分布式云计算的数据挖掘模型,所述数据挖掘模型包括数据源组件、特征选择组件、特征融合组件、特征相关性分析组件和基于神经网络的分类预测组件,所述数据源组件用于接收用户配置数据并根据用户配置数据采集所述第一用户数据和所述第二用户数据,所述特征融合组件用于进行所述数据融合处理,所述特征选择组件用于从融合后数据中选择并提取用户特征,所述特征相关性分析组件用于接收所述特征选择组件的输出并输出特征相关性分析结果,所述分类预测组件用于接收所述特征选择组件的输出并输出电费回收风险第二预测结果。

进一步地,所述特征选择组件采用卡方校验选择与用户欠费行为特征相关度最大的前N个用户特征,N为正整数。

按照本发明的第二个方面,提供了一种基于多源数据的电费回收风险预测系统,包括:

数据采集及预处理模块,用于采集电网计费系统内存储的第一用户数据以及非电网计费系统内存储的第二用户数据,将所述第一用户数据和所述第二用户数据进行数据融合处理并提取用户特征;

分布参数确定模块,用于基于所述用户特征将用户划分为若干个用户集合,定义自用户开户到因拖欠电费销户的时长为用户生存周期,设置所述用户集合的用户生存周期的概率分布模型,并基于所述用户集合中的用户数据确定所述概率分布模型中的分布参数;

第一预测模块,用于根据所述概率分布模型预测所述用户集合的用户生存周期,输出所述用户集合的电费回收风险第一预测结果。

进一步地,基于多源数据的电费回收风险预测系统,还包括基于分布式云计算的数据挖掘模型,所述数据挖掘模型包括数据源组件、特征选择组件、特征融合组件、特征相关性分析组件和基于神经网络的分类预测组件,所述数据源组件用于接收用户配置数据并根据用户配置数据采集所述第一用户数据和所述第二用户数据,所述特征融合组件用于进行所述数据融合处理,所述特征选择组件用于从融合后数据中选择并提取用户特征,所述特征相关性分析组件用于接收所述特征选择组件的输出并输出特征相关性分析结果,所述分类预测组件用于接收所述特征选择组件的输出并输出电费回收风险第二预测结果。

按照本发明的第三个方面,还提供了一种电子设备,其包括至少一个处理器、以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行上述任一项所述方法的步骤。

按照本发明的第四个方面,还提供了一种存储介质,其存储有可由处理器执行的计算机程序,当所述计算机程序在处理器上运行时,使得处理器执行上述任一项所述方法的步骤。

总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:本发明通过综合电网计费系统内存储的第一用户数据以及非电网计费系统内存储的第二用户数据,进行多源数据融合和特征提取,再基于提取特征进行用户划分和每个用户群体的风险预测,可以提高电费风险预测的准确性,帮助电力企业挖掘优质客户,降低成本。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于多源数据的电费回收风险预测方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或模块。

如图1所示,本发明实施例的一种基于多源数据的电费回收风险预测方法,包括:

S101,采集电网计费系统内存储的第一用户数据以及非电网计费系统内存储的第二用户数据,将第一用户数据和第二用户数据进行数据融合处理并提取用户特征。

用户采集数据包括第一用户数据以及第二用户数据。

第一用户数据即电网计费系统内存储的用户数据。电网计费系统内第一用户数据包括各种类型的电费回收风险影响因素相关数据。例如用户基础数据、用电客户档案数据、用户违约用电、拖欠费信息、用户缴费数据以及用户用电数据。

第二用户数据即电网计费系统外部存储的用户数据,例如政务、工商、公安数据等,包括是否四类人员、是否限制高消费情况、存在严重违法、是否被执行人、是否为失信客户等信息。

进一步地,数据融合处理包括根据用户身份标识识别第一用户数据和第二用户数据的重合用户,并将第一用户数据和第二用户数据中与同一用户身份标识对应的数据关联到该同一身份标识。基于此方法可以进行跨库、跨表数据关联融合,进行异常数据清洗。

进一步地,数据融合处理还可以基于地址信息进行融合,具体包括:第一用户数据和第二用户数据均包括地址属性信息;建立标准地址库,标准地址库中每个地址被分配有唯一的编码;将第一用户数据和第二用户数据中的地址属性信息映射到标准地址库中的编码,将具有相同编码的用户数据作为重合用户数据,并将第一用户数据和第二用户数据中与同一编码对应的数据关联到该同一编码。

进一步地,采用数据传输加解密技术,按需加密字段。采用主键字段非对称加密法,加密用户名、用户ID、用户地址等字段信息,保障数据安全。

进一步地,采集非电网计费系统内存储的第二用户数据后先进行加密处理,再进行第一用户数据和第二用户数据的融合处理。除了电网计费系统内数据,其他部门将自己的第二用户数据发送给电力部分进行利用时,会担心其内部因私数据被泄露,采用这种方法可以保证其他部门数据的安全性。

提取的用户特征可以是用户数据本身的属性数据,例如用户基础数据、用电客户档案数据、用户违约用电、拖欠费信息、用户缴费数据、用户用电数据、是否四类人员、是否限制高消费情况、存在严重违法、是否被执行人、是否为失信客户等信息。还可以是使用预设特征提取算法提取处理后的特征。具体根据分析需求确定。

S102,基于用户特征将用户划分为若干个用户集合,定义自用户开户到因拖欠电费销户的时长为用户生存周期,设置用户集合的用户生存周期的概率分布模型,并基于用户集合中的用户数据确定概率分布模型中的分布参数。

例如可以根据用电类型、所属地市、合同容量、电压等级、缴费次数、缴费时长、停电次数、投诉次数、建议次数、催费次数、欠费金额、是否四类人员、是否限制高消费情况、存在严重违法、是否被执行人、是否为失信客户等特征,将大客户分成多个用户集合,也即用户群体。

定义自用户开户到因拖欠电费销户的时长为用户生存周期,每位电力用户的用户生存周期为随机变量T。用户集合的用户生存周期的概率分布模型也即连续概率密度函数为f(t)。

然后对于每个用户集合,基于该用户集合中的已有的用户数据确定该用户集合对应的概率分布模型中的分布参数。

若T服从指数分布,f(t)=μμe

若T服从Weibull分布,Weibull是常用的可靠性分析和寿命检验的基础概率分布模型,

若T服从log-Logistic分布,log-Logistic分布概率密度函数为:

S103,根据概率分布模型预测用户集合的用户生存周期,输出用户集合的电费回收风险第一预测结果。

构造用户生存周期模型,即生存函数。

步骤S3.1:定义生存函数S(t):

S(t)=1-F(t)=P(T>t)

S(t)为时刻t的用户生存周期预测值。

其中,F(t)为累计密度函数:

其中f(s)为在时刻s的f(t)取值。

步骤S3.2:定义风险率计算规则。

根据生存函数,定义在t时刻,客户发生电费拒缴概率,即风险率,记为h(t):

进一步,密度函数f(t)可以表示为:

若T服从指数分布,构建风险率模型。指数分布具有无记忆属性,风险率为常数μ。概率密度函数为:

f(t)=μe

生存函数为:

S(t)=e

据此,完成不同客群电费回收风险计算。

若T服从Weibull分布,概率密度函数为:

生存函数为:

若T服从log-Logistic分布,分布概率密度函数为:

生存函数为:

进一步地,本发明实施例的基于多源数据的电费回收风险预测方法还包括步骤:构建基于分布式云计算的数据挖掘模型,数据挖掘模型包括数据源组件、特征选择组件、特征融合组件、特征相关性分析组件和基于神经网络的分类预测组件,数据源组件用于接收用户配置数据并根据用户配置数据采集第一用户数据和第二用户数据,特征融合组件用于进行数据融合处理,特征选择组件用于从融合后数据中选择并提取用户特征,特征相关性分析组件用于接收特征选择组件的输出并输出特征相关性分析结果,分类预测组件用于接收特征选择组件的输出并输出电费回收风险第二预测结果。

其中,可以利用数据挖掘模型中的数据源组件、特征选择组件、特征融合组件完成步骤S101。数据源组件、特征选择组件、特征融合组件的具体实现可采用任意现有技术实现。

另外本发明实施例中还增加了特征相关性分析组件和基于神经网络的分类预测组件。特征相关性分析组件用于判断输入的不同特性间的相关性。基于神经网络的分类预测组件用于采用深度学习方法输出第二预测结果,用于第一预测结果的补充。

数据源组件包括文本数据源组件,支持接入Txt、CSV、Excel文件,关系型数据源组件,支持mysql、sqlserver、Oracle、DB2、阿里数据库、华为大数据库,以及SQL数据源组件,可以编写sql获取数据。通过设置ip、端口、数据库名称、账户密码等信息,可以配置数据源链接。

特征选择组件,可以从融合后数据中选择并提取用户特征。进一步地,特征选择组件采用卡方校验选择与用户欠费行为特征相关度最大的前N个用户特征,N为正整数,具体是根据卡方检验(统计样本的实际观测值与理论推断值之间的偏离程度)的数据相关性对特征变量进行排序,然后选择与目标变量相关性较大的特征变量,用户只设置需要选择的特征数量N,然后该组件会根据目标字段列自动选择最相关的特征。

数据融合组件可以进行两个或以上数据流字段的组合后得到新的数据表,支持两个以上数据流的单个或多个字段为连接字段,连接方式包括左连接、右连接、内连接、全连接,通过关键值进行匹配。

相关性分析组件,判断分析特征和特征之间的相关性,将用电类型、所属地市、合同容量、电压等级、缴费次数、缴费时长、停电次数、投诉次数、建议次数、催费次数、欠费金额、是否四类人员、是否限制高消费情况、存在严重违法、是否被执行人、是否为失信客户等特征进行相关性分析,找出强相关特征因子。

分类预测组件基于神经网络实现。按照训练数据流占比0.7进行拆分,拆分样本数据;进行数据调参训练;然后对全数据进行验证;然后对模型进行评估拟合分析,可视化展示。

进一步地,还可以根据特征相关性分析结果,在前N个特征中保留与用户欠费行为特征相关度大于预设阈值的特征作为特征选择组件选择并提取的用户特征。即根据特征相关性分析结果来反馈调节特征选择组件提取的用户特征,去除与用户欠费行为特征相关度小的特征,从而改变分类预测组件的数据输入,进一步提高预测准确性。用户欠费行为特征是指是否欠费、欠费金额、欠费时间等特征。

进一步地,上述数据挖掘模型的各个组件可采用界面化的方式提供给用户进行配置,支持用户进行组件拖拽、移除等操作。非挖掘专家也能高度参与数据挖掘,并且分析全程可视化,采取直观的流程式建模,支持可视化探索,轻松理解数据质量和数据并联,流程节点在线帮助提示,模型超参数自动调整。使用此方法,对客户的电费回收风险进行模型构建、评估、预测,更为便捷的模型构建和使用深度学习算法,更精准的评估和预测电费回收风险用户级别。

本发明实施例的一种基于多源数据的电费回收风险预测系统,包括:

数据采集及预处理模块,用于采集电网计费系统内存储的第一用户数据以及非电网计费系统内存储的第二用户数据,将第一用户数据和第二用户数据进行数据融合处理并提取用户特征;

分布参数确定模块,用于基于用户特征将用户划分为若干个用户集合,定义自用户开户到因拖欠电费销户的时长为用户生存周期,设置用户集合的用户生存周期的概率分布模型,并基于用户集合中的用户数据确定概率分布模型中的分布参数;

第一预测模块,用于根据概率分布模型获得用户集合的用户生存周期模型,根据用户生存周期模型输出用户集合的电费回收风险第一预测结果。

进一步地,电费回收风险预测系统还包括基于分布式云计算的数据挖掘模型,数据挖掘模型包括数据源组件、特征选择组件、特征融合组件、特征相关性分析组件和基于神经网络的分类预测组件,数据源组件用于接收用户配置数据并根据用户配置数据采集第一用户数据和第二用户数据,特征融合组件用于进行数据融合处理,特征选择组件用于从融合后数据中选择并提取用户特征,特征相关性分析组件用于接收特征选择组件的输出并输出特征相关性分析结果,分类预测组件用于接收特征选择组件的输出并输出电费回收风险第二预测结果。

本实施例还提供了一种电子设备,其包括至少一个处理器、以及至少一个存储器,其中,存储器中存储有计算机程序,当计算机程序被处理器执行时,使得处理器执行任一项上述基于多源数据的电费回收风险预测方法的步骤,具体步骤参见方法实施例,此处不再赘述;本实施例中,处理器和存储器的类型不作具体限制,例如:处理器可以是微处理器、数字信息处理器、片上可编程逻辑系统等;存储器可以是易失性存储器、非易失性存储器或者它们的组合等。

本申请还提供一种存储介质,其存储有可由处理器执行的计算机程序,当计算机程序在处理器上运行时,使得处理器执行上述任一项上述基于多源数据的电费回收风险预测方法的步骤。其中,计算机可读存储介质可以包括但不限于任何类型的盘,包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC),或适合于存储指令和/或数据的任何类型的媒介或设备。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统,可通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口,系统或单元的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通进程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random AccessMemory,RAM)、磁盘或光盘等。

以上所述者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践这里的公开后,将容易想到本公开的其实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号