首页> 中国专利> 一种大型流域水电企业电量数据校核方法及系统

一种大型流域水电企业电量数据校核方法及系统

摘要

本发明提供一种大型流域水电企业电量数据校核方法及系统,一种大型流域水电企业电量数据校核方法包括如下步骤:基于数据源到数据集市的流向分层级进行数据校核,基于相同业务的两套或多套数据来源进行精确对比校核,基于不同业务的两套或多套数据来源进行自定义比较,同一条校验规则无需冗杂配置,一条规则可以多条数据重复使用,校核规则统一自动化调度,质量要求不合格数据实时告警、隔离储存处理,保障源数据的正确性,按照数据质量评分规则,定期生成数据质量报告,准确评价数据质量现状,提高数据维护人员的整改数据质量效率,通过制定数据质量管理政策,明确数据在创建、维护、应用过程中的规则及质量要求,确保数据真实可靠。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-20

    实质审查的生效 IPC(主分类):G06Q10/06 专利申请号:2022104257194 申请日:20220422

    实质审查的生效

  • 2022-09-02

    公开

    发明专利申请公布

说明书

技术领域

本发明是一种大型流域水电企业电量数据校核方法及系统,属于数据分析技术领域。

背景技术

随着通信与数字技术的发展,网络化和数字化给人类带来更多的精彩和无限的可能,推动我们进入全联接的信息时代和大数据时代。因此,如何以保障数据的稳定可靠,将数据作为驱动企业数字化转型重点解决问题。

数据作为一种新的生产要素,在企业构筑竞争优势的过程中起着重要作用,企业应将数据作为一种战略资产进行管理。数据从业务中产生,在IT系统中承载,要对数据进行有效治理,建立有效的数据治理环境,数据的质量和安全得到保障,数据的价值才能真正发挥出来,所以需要设计一种新的据校核方法来确保数据的质量和安全。

发明内容

针对现有技术存在的不足,本发明目的是提供一种大型流域水电企业电量数据校核方法及系统,以解决上述背景技术中提出的问题。

为了实现上述目的,本发明是通过如下的技术方案来实现:一种大型流域水电企业电量数据校核方法,包括如下步骤:

S1,基于数据源到数据集市的流向分层级进行数据校核;

S2,基于相同业务的两套或多套数据来源进行精确对比校核;

S3,基于不同业务的两套或多套数据来源进行自定义比较;

S4,同一条校验规则无需冗杂配置,一条规则可以多条数据重复使用,校核规则统一自动化调度,质量要求不合格数据实时告警、隔离储存处理,保障源数据的正确性;

S5,按照数据质量评分规则,定期生成数据质量报告。

进一步地,上述步骤中同一条校验规则无需冗杂配置,一条规则可以多条数据重复使用,校核规则统一自动化调度,质量要求不合格数据隔离处理,保障源数据的正确性,按照数据质量评分规则,定期生成数据质量报告。

进一步地,所述数据源到数据集市流向包括SDI、DWI、DWR、DM层,贴源层SDI针对基本的、常规性数据质量问题进行校核,数据模型层DWI、DWR针对特性的、非常规性数据质量问题进行校核。

进一步地,所述相同业务的两套或多套数据来源分为电厂采集子站和流域集控中心总站,各自从两个系统分别抽取数据,在数据平台系统进行精确对比校核,对比方式包括,源数据与源数据对比,源数据与计算数据对比,计算数据与计算数据对比。

进一步地,所述相同业务的两套或多套数据来源进行精确对比校核规格单次输入,可以多次重复使用,全数据统一调度,从完整性、及时性、准确性、一致性、唯一性、有效性六个维度对数据质量进行监测;从单列对比、跨列对比、跨行对比、跨表对比四个方面对数据质量进行核查。

进一步地,所述数据质量问题具备实时告警功能,具备智能分析功能,具备集中隔离功能,不会因为问题数据影响上层应用系统的预警、分析、计算准确性,贴源层数据质量出现问题修改源数据值或格式即可重新入库,模型设计层出现数据质量问题,修改关系模型结构即可重新入湖,数据不会缺失,数据完整性得到保障。

本发明的有益效果:本发明的一种大型流域水电企业电量数据校核方法及系统,准确评价数据质量现状,提高数据维护人员的整改数据质量效率,通过制定数据质量管理政策,明确数据在创建、维护、应用过程中的规则及质量要求,确保数据真实可靠。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1为本发明一种大型流域水电企业电量数据校核方法及系统的流程框图;

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。

请参阅图1,本发明提供一种技术方案:一种大型流域水电企业电量数据校核方法,包括如下步骤:

S1,基于数据源到数据集市的流向分层级进行数据校核;

S2,基于相同业务的两套或多套数据来源进行精确对比校核;

S3,基于不同业务的两套或多套数据来源进行自定义比较;

S4,同一条校验规则无需冗杂配置,一条规则可以多条数据重复使用,校核规则统一自动化调度,质量要求不合格数据实时告警、隔离储存处理,保障源数据的正确性;

S5,按照数据质量评分规则,定期生成数据质量报告。

其中,数据源到数据集市层级流向包括源数据库层、SDI层、DWI层、DWR层、DM层,源数据库为电量数据的提供者、数据源储存介质;SDI层为贴源层,一般抽取的是源系统的数据,是一个数据缓冲区,和源系统保持一致,同时具备数据的初级清洗功能;DWI层又称数据整合层,DWI整合多个源系统数据,对源系统进来的数据进行整合、清洗,并基于三范式进行关系建模;DWR层又称数据报告层,基于维度用于观察和分析业务数据的视角,支撑对数据进行汇聚、钻取、切片分析,DWR基于多维模型,和DWI层数据粒度保持一致;DM层为数据集市层,这一层是将业务部门所关注的指标进行汇总,形成的可用数据,不同的业务部门可以形成不同的集市,具体情况可以视情况而定,集市层直接服务与应用系统,可采用API、JDBC等方式抽数使用。

而数据分层级进行质量校核,第一层级SDI贴源层,处理一些简单化、常规化的数据问题,但不会对数据的结构、维度做大量的处理,因此贴源层的质量校验较为通用,主要从数据集成的角度确保数据的完整性、有效性、及时性、一致性、准确性、唯一性,完整性指数据在创建、传递过程中无缺失和遗漏,包括实体完整、属性完整、记录完整和字段值完整四个方面。例如员工工号不可为空;及时性指及时记录和传递相关数据,满足业务对信息获取的时间要求,包括数据交付、抽取、展示的及时,数据交付时间过长可能导致分析结论失去参考意义;

准确性指真实、准确地记录原始数据,无虚假数据及信息,数据要准确反映其所建模的“真实世界”实体。例如员工的身份信息必须与身份证件上的信息保持一致;一致性指遵循统一的数据标准记录和传递数据和信息,主要体现在数据记录是否规范、数据是否符合逻辑,例如同一工号对应的不同系统中的员工姓名需一致;唯一性指同一数据只能有唯一的标识符,在一个数据集中,一个实体只能出现一次,且每个唯一实体有一个主键且该主键仅指向该实体,例如员工有且仅有一个有效工号;有效性指数据的值、格式和展现形式符合数据定义和业务定义的要求,例如员工的国籍必须是国家基础数据中定义的允许值。

数据分层级进行质量校核,第二层级DWI数据整合层,处理整合后的计算值,在DWI层数据会根据业务部门所需进行关系维度上的处理,将源数据通过加、减、乘、除等计算规则进行整合,数据的校核规则也相对复杂,更多的是面向跨表级规则和自定义规则,跨表级规则主要利用计算后的整合值与数据库原始计算好的值进行对比,例如采用电量底数计算电量底数的增量,增量值需为正同时满足在一定范围内,自定义规则可针对表中的具体字段配置码表实现其监控规则。

步骤S2具体为:数据具备分层级校核功能后,还应在每一层级设置双系统校验规则,数据的单线传输存在很多的不确定因素,会导致数据的质量发生变化,需要确定一项标准值进行比对,但电量数据会根据机组的变化也实时变化,无法设置定值进行比对,需要从另一条路径的相同电量业务的取数,相同业务指标的数据动态对比。

水电企业电量数据来源一般为电厂采集子站和流域集控中心总站,各自从两个系统分别抽取数据,一类电量数据采集方式为电厂采集子站直接传输,在数据平台中进行多维度计算,二类数据传输方式为电厂采集子站传输至流域集控中心总站,在电量总站中进行计算,数据平台直取流域集控中心总站的计算数据,将两类数据进行精确对比,校核相关数据通过两个不同的传感器采集方式,不同的传输路径,其最终结果的差异性。对比方式包括,两个系统的源数据与源数据对比,源数据与计算数据对比,计算数据与计算数据对比。例如从电厂端直取电量系统的底数,经过数据中心计算电厂发电量,将此种方式计算的发电量与流域集控中心总站直取的发电量进行对比,核查其数据的可靠性。

所述步骤S3具体为:两个不同取数路径、不同系统的电量数据相互校核可以提高数据的准确性,也能一定程度上保障数据的稳定,但仍然存在一定的弊端,例如当两条线路均终端,两个系统均宕机时,数据将不在刷新或置为0,此时相同业务指标的两条数据相同,数据校核质量作业将不会告警处理,因此两个系统的冗余校核仍不能全部解决数据质量问题,需引入更多业务系统作为校核项对电量系统进行校核处理,基于逻辑运算规则,将多个系统的数据参数进行逻辑运算,组成更复杂的告警条件。

水电企业电量数据是电厂生产运营的一项重要指标,能够展示电厂各台机组进行能量转换产出的发电量,同时也具备与其他测量信号相互核对质量的能力,水电企业的发电机组状态分为停机、空转、空载、发电、检修,当机组的状态为带一定负荷发电态时,电量系统的机组光口表的正向有功底数应为实时增加,全厂的发电量应为实时增加,若此时当前两项数据的增量为0或为负值,则说明该两项数据的质量不合格,设置此种两个业务系统关联的质量校核规则,可以更全面的检查电量数据的质量情况。

所述步骤S4具体为:数据校核规则分为共性数据质量校核规则和特性数据质量校核规则,共性校验规则主要针对质量校核的常规性属性进行统计,应具备通用性功能,共性的规则作业包括表行数、字段唯一性、字段空值、字段重复值、字段最大值、数据格式、数据长度等;特性属性主要针对单条数据进行自定义设置,一般采用完整的SQL语句,对数据对象进行多维度的数据质量监控,特性的规则作业包括校验电量底数的增量值,发电量数据的限值等。

同一条校验规则无需冗杂配置,一条规则多条数据重复使用,校核规则统一自动化调度;周期调度会产生周期实例,周期实例是周期任务达到启用调度所配置的周期性运行时间时,被自动调度起来的实例快照。周期任务每调度一次,便生成一个实例工作流。已调度起的实例任务在数据平台中进行日常的运维管理,如查看运行状态,对任务进行终止、重跑等操作。

数据平台具备实时告警功能,每条数据于质量作业规则进行匹配,当数据质量不合格隔离储存处理,待业务人员人工审核数据问题,修改数据的格式或传输方式,数据正常后增量入数据平台,保障源数据的正确性。

所述步骤S5具体为:质量评分的满分可设置为5分,10分,100分。是以表关联的规则为基础进行评分的。而表、业务对象、主题域等不同维度的评分,本质上是基于规则评分在不同维度下的加权平均值进行计算的。

创建质量作业时,包含“比率”、“值率”的自定义规则可以生成质量评分报告。包含“比率”、“值率”的规则可以分为正向规则及反向规则,正向规则即比值越高,代表数据质量越好;反向规则即比值越高,则数据质量越差。正向规则包含唯一值率、重复值率、合法比率规则,反向规则包含空值率规则。

正向规则评分=满足规则的数据行数/数据总行数*满分(5,10,100)。

反向规则评分=(1-满足规则的数据行数/数据总行数)*满分(5,10,100)。

当表为空,即总行数为0时,正向规则评分固定为满分,反向评分固定为0分。

表评分计算公式:∑(表关联的所有规则评分*规则权重)/∑规则权重。

此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号