首页> 中国专利> 一种基于数据中台的数据质量管理平台

一种基于数据中台的数据质量管理平台

摘要

本发明公开一种基于数据中台的数据质量管理平台,包括量测数据不落地加工处理模块、量测数据在线质量监测模块和数据质量工具模块;所述测量数据不落地加工处理模块通过流计算对量测数据加工处理;所述量测数据在线质量监测模块采用流计算在线监测数据质量异常;所述数据质量工具模块采用离线计算管理数据中台中的数据质量。本发明提供高性能计算平台,满足大规模量测数据质量问题的识别需求,在线流计算的数据质量对比效率大概10万/S,离线数据质量对比效率大概40万/S。

著录项

说明书

技术领域

本发明涉及数据质量管理平台,尤其涉及一种基于数据中台的数据质量管理平台。

背景技术

随着电网智能化建设的飞速发展和生产业务系统采集量测数据的持续积累,越来越多的管理决策、市场营销和客户服务都建立在面向量测数据的分析基础上。在数据的采集、处理等过程中,由于传输通道、后台计算服务、存储服务、其他相关数据质量等多方面质量因素,不可避免地产生数据质量问题,影响基于此类数据相关应用以分析辅助决策的准确性,并带来工作效率降低、工作成本增加等问题。

在数据采集过程中,如果及时发现数据异常并采取积极措施,会大大降低经济损失和后期各种问题,数据质量的在线监测也尤其重要。对数据进行在线监测和离线监测的双重处理,将大大提高数据的质量。

发明内容

发明目的:本发明旨在解决现有技术的上述不足,提供基于数据中台的数据质量管理平台,解决数据在线检测和数据中台的数据失效、丢失、错误和不准确的问题。

技术方案:本发明所述基于数据中台的数据质量管理平台,包括量测数据不落地加工处理模块、量测数据在线质量监测模块和数据质量工具模块;所述测量数据不落地加工处理模块通过流计算加工处理量测数据;所述量测数据在线质量监测模块采用流计算在线监测数据质量异常;所述数据质量工具模块采用离线计算监测数据中台中的量测数据质量。

所述量测数据不落地加工处理模块包括ID转换服务、公式计算服务和状态判断;所述ID转换服务将消息里面的设备ID经过映射关系实时转换,将转换后的数据发回消息总线供数据存储服务存储到历史数据库、实时数据库及热数据库中;所述公式计算服务接收到消息后确定需要进行计算的量测类型,获得实时计算结果并存储到MPP,供前端界面进行查询和展现;所述状态判断实现在接入过程中,获得源端实时同步数据的状态。

所述量测数据在线质量监测模块根据量测数据质量需求、历史数据、流数据和窗口数据信息检测量测数据异常,将监测结果存储到MPP供前台展现和发告警。

所述量测数据在线质量监测模块包括数据漏点在线监测和电表倒走在线监测;所述数据漏点在线监测采用数据中台流计算组件,根据数据频率和相邻两个测点的时间,监测数据漏点;所述电表倒走在线监测根据相邻两个测的数值大小,监测电表倒走。

所述数据质量工具模块通过内置判断规则、人工配置规则和可扩展的嵌入式逻辑判断组件,自动识别业务系统历史数据库中、部门级或企业级数据中心存在的数据质量问题。

所述数据质量工具模块包括数据抽取单元、定义单元、校验单元、分析单元和治理单元;所述抽取单元提供多源数据适配器及ETL工具,从数据中台抽取数据;所述定义单元配置校验规则和校验标准;所述校验单元通过数据校验引擎和所述定义单元的校验标准对抽取数据进行校验,并将校验结果存储到关系库;所述分析单元对校验结果进行展现、统计报表、问题报告、数据分析和问题定位;所述治理单元进行数据同步、数据纠错、数据补招和数据去重,实现数据质量。

所述校验单元包括一致性校验引擎、完整性校验引擎、及时性校验引擎、精确性校验引擎、有效性校验引擎和唯一性校验引擎;校验单元采用数据压缩加密算法完成结构化和非结构化的数据一致性和完整性的对比;校验引擎利用分布式缓存、大数据处理技术、Storm、Spark streaming流处理、Spark内存并行计算、kafka分布式消息队列。

所述校验标准包括SG-CIM标准、标准量测模板、及时性检测标准、精确性检测区间和有效性校验标准。

所述定义单元采用脚本解析组件、嵌入程序加载组件支持多类型规则的配置。

所述分析单元采用报表组件、统计组件和纠错组件,通过查询服务、SQL接口统计展现识别问题结果并辅助纠错

有益效果:与现有技术相比,本发明的显著优点为提供高性能计算平台,实现快速分析,满足大规模电网业务数据问题识别精确性、及时性、一致性、完整性、唯一性和有效性的要求;在线流计算的数据质量对比效率大概10万/S,离线数据质量对比效率大概40万/S。

附图说明

图1为本发明数据质量在线监测时序图;

图2为本发明数据质量工具模块结构图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

由图1可知,本发明所述量测数据不落地加工处理模块包括ID转换服务和公式计算服务和状态判断;在线质量监测模块包括数据质量监测服务。它们都是基于流计算从服务端消息总线接收经过标准化后的消息数据。

ID转换服务将消息里面的设备ID经过ID的映射关系进行实时转换,然后将转换后的数据发回消息总线供数据存储服务存储到历史数据库、实时数据库及热数据库中。公式计算服务接收到消息后筛选需要进行计算的量测类型,并按照变压器重计算、过载公式计算、母线三相不平衡计算公式实时计算并将计算结果存储到MPP,供前端界面进行查询和界面展现。状态判断实现在接入过程中,获得源端实时同步数据的状态。

数据质量监测服务接收到消息后基于流计算,根据量测数据质量需求,结合历史数据、流数据和窗口数据信息进行数据漏点,电表倒走质量方面的监测,并将监测结果存储到MPP供前台进行展现和发告警。数据质量监测服务包括数据漏点在线监测和电表倒走在线监测;所述数据漏点在线监测采用数据中台流计算组件,根据数据频率和相邻两个测点的时间,监测数据漏点情况;所述电表倒走在线监测根据相邻两个测的数值大小,监测电表倒走情况。

量测数据不落地加工处理模块和量测数据在线质量监测模块基于数据中台总体架构,通过对量测服务与数据中台流计算组件的融合技术,实现量测数据不落地加工,支撑量测数据质量在线监测。及时发现和反馈数据质量问题,为量测类实时数据分析的准确性提供重要保障。

由图2可知,所述数据质量工具模块包括数据抽取单元、定义单元、校验单元、分析单元和治理单元。

所述抽取单元提供多源数据适配器及ETL工具,从数据中台抽取数据。

所述定义单元采用脚本解析组件、嵌入程序加载组件,支持多类型校验规则的配置和校验标准;所述校验标准包括SG-CIM标准、标准量测模板、及时性检测标准、精确性检测区间和有效性校验标准。

所述校验单元通过数据校验引擎和所述定义单元的校验标准对抽取数据进行校验,并将校验结果存储到关系库;所述校验单元包括一致性校验引擎、完整性校验引擎、及时性校验引擎、精确性校验引擎、有效性校验引擎和唯一性校验引擎;校验单元采用数据压缩加密算法完成结构化和非结构化的数据一致性和完整性的对比。校验引擎利用分布式缓存、大数据处理技术、Storm、Spark streaming等流处理、Spark内存并行计算、kafka分布式消息队列,提供高性能计算平台,满足大规模量测数据质量问题识别需求。

所述分析单元采用报表组件、统计组件和纠错组件,通过查询服务、SQL接口统计展现识别问题结果并辅助纠错,对校验结果进行展现、统计报表、问题报告、数据分析和问题定位。

所述治理单元进行数据同步、数据纠错、数据补招和数据去重,实现数据质量。

本发明面向调度、用采等量测数据,通过内置判断规则、人工配置规则和可扩展的嵌入式逻辑判断组件,自动识别业务系统历史数据库中、部门级或企业级数据中心存在的数据质量问题,提供问题展现、问题定位、问题纠错辅助功能,帮助管理人员快速发现、判断、解决数据中存在的质量问题。

本发明中,量测数据通过量测数据不落地加工处理模块和在线质量监测模块的在线监测实时发现异常数据并反馈数据质量问题,当量测数据存储到各数据库中后,还可以通过数据质量工具离线监测数据中存在的质量问题,从多个角度监测数据质量。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号