首页> 中国专利> 一种用于城市级数据中台的数据治理系统

一种用于城市级数据中台的数据治理系统

摘要

本发明提供一种用于城市级数据中台的数据治理系统,涉及数据处理技术领域,包括:数据标准管理平台,用于存储和管理预先制定的至少一数据管理规范和至少一质量管理规范;元数据管理模块,用于根据数据管理规范对数据资源关联的元数据进行管理;数据质量管理模块,用于根据质量管理规范生成数据质量管理标准,并根据数据质量管理标准对元数据的管理过程进行质量管控;公共管理与门户模块,用于为元数据管理模块、数据标准管理模块和数据质量管理模块提供统一的用户权限管理支持和导航查询。本技术方案满足进行库表元数据的查看,数据之间血缘关系与影响的查看,以及数据之间依赖关系的分析,能更好地为城市级数据中台服务。

著录项

  • 公开/公告号CN112199433A

    专利类型发明专利

  • 公开/公告日2021-01-08

    原文格式PDF

  • 申请/专利权人 云赛智联股份有限公司;

    申请/专利号CN202011176826.5

  • 发明设计人 陈正伟;辛帅;陈建华;

    申请日2020-10-28

  • 分类号G06F16/25(20190101);G06F16/28(20190101);G06F16/248(20190101);G06F16/2457(20190101);G06Q50/26(20120101);

  • 代理机构31272 上海申新律师事务所;

  • 代理人党蕾

  • 地址 200120 上海市浦东新区中国(上海)自由贸易试验区张衡路200号1号楼2楼

  • 入库时间 2023-06-19 09:30:39

说明书

技术领域

本发明涉及数据处理领域,尤其涉及一种用于城市级数据中台的数据治理系统。

背景技术

数据中台是数据应用开发门户,具有闭环涵盖数据应用开发全流程,完整覆盖离线计算、实时计算应用等功能。能够满足开发人员从数据采集、数据分析、数据挖掘、数据质量、数据地图、数据模型、数据API的各层次应用。可以理解,使用数据中台可以解放开发人员的生产力,极大的缩短数据价值的萃取过程,提高企业提炼数据价值的能力。但是现有的数据中台中,数据治理服务不够完备,同时数据治理服务功能中对元数据的管理功能不够完善。

发明内容

针对现有技术中存在的问题,本发明提供一种用于城市级数据中台的数据治理系统,具体包括:

用于对城市级数据中台的一数据资源中心存储的数据资源进行数据治理,包括:

数据标准管理平台,用于存储和管理预先制定的至少一数据管理规范和至少一质量管理规范;

元数据管理模块,连接所述数据标准管理平台,用于根据所述数据管理规范对所述数据资源关联的元数据进行管理;

数据质量管理模块,分别连接所述元数据管理模块和所述数据标准管理平台,用于根据所述质量管理规范生成数据质量管理标准,并根据所述数据质量管理标准对所述元数据的管理过程进行质量管控;

公共管理与门户模块,分别连接所述元数据管理模块、所述数据标准管理平台和所述数据质量管理模块,用于为所述元数据管理模块、所述数据标准管理平台和所述数据质量管理模块提供统一的用户权限管理支持和导航查询。

优选的,所述元数据管理模块采用分层架构,所述分层架构由下至上包括:

采集层,用于采集各种所述元数据,并对各所述元数据进行初步的数据解析得到各所述元数据之间的元数据关系;

存储层,用于对所述采集层输入的各所述元数据进行集中存储,并对所述元数据关系进行存储;

应用层,用于对所述元数据及所述元数据关系进行分析及管理;

服务层,用于提供基于所述元数据的对外服务。

优选的,所述采集层通过预先配置的采集适配器和/或预先生成的数据导入模块进行各所述元数据的采集。

优选的,所述元数据包括:

分布式文件系统元数据、分布式数据仓库元数据、分布式NoSQL数据库元数据、数据检索组件元数据和实时流计算组件元数据中的一种或多种。

优选的,所述应用层包括:

血缘分析单元,用于对各所述元数据进行血缘分析获取各所述元数据的数据来源;

影响分析单元,用于对各所述元数据发生变更时对其他系统和数据产生的影响进行分析。

数据重要性分析单元,用于从各所述元数据的被使用频率、被访问次数、暗数据判别结果来分析各所述元数据的重要性;

分析结果导出单元,分别连接所述血缘分析单元、所述影响分析单元和所述数据重要性分析单元,用于将各所述元数据的分析结果进行导出。

优选的,所述应用层还包括元数据管理单元,用于对所述元数据进行元数据视图管理,和/或元数据维护,和/或元数据查询,和/或元数据导出,和/或元数据版本管理和/或元数据变更管理。

优选的,所述数据质量管理模块包括:

标准映射单元,用于根据所述质量管理规范生成相应的约束或模板,供用户对数据质量规则、评分卡和知识库进行定制;

检核管理单元,用于供用户对计算生成的检核任务进行配置和调度管理;

数据质量报告数据库,用于根据所述检核任务对应的检核结果生成定制化的数据质量报告;

问题管理单元,连接所述数据质量报告数据库,用于根据所述数据质量报告进行数据质量问题的发现、报警和处理。

优选的,所述公共管理与门户模块包括:

公共管理单元,用于提供用户管理、角色管理、权限管理、日志管理、数据库管理、安全管理和审计管理的服务,实现为所述元数据管理模块、所述数据标准管理平台和所述数据质量管理模块提供统一的用户权限管理支持。

优选的,所述公共管理与门户模块还包括:

门户单元,用于提供查询检索、导航、通用功能和门户管理的服务,实现为所述元数据管理模块、所述数据标准管理平台和所述数据质量管理模块提供导航查询。

上述技术方案具有如下优点或有益效果:

本技术方案整合各个环节的元数据资产,以便进行元数据的浏览和分析,也是形成数据资源管理门户的来源;同时还满足进行库表元数据的查看,数据之间血缘关系与影响的查看,以及数据之间依赖关系的分析,能更好地为城市级数据中台服务。

附图说明

图1为本发明的较佳的实施例中,数据治理系统的结构示意图;

图2为本发明的较佳的实施例中,元数据管理模块的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本发明并不限定于该实施方式,只要符合本发明的主旨,则其他实施方式也可以属于本发明的范畴。

本发明的较佳的实施例中,基于现有技术中存在的上述问题,现提供一种用于城市级数据中台的数据治理系统,用于对城市级数据中台的一数据资源中心存储的数据资源进行数据治理,如图1所示,包括:

数据标准管理平台1,用于存储和管理预先制定的至少一数据管理规范和至少一质量管理规范;

元数据管理模块2,连接数据标准管理平台1,用于根据数据管理规范对数据资源关联的元数据进行管理;

数据质量管理模块3,分别连接元数据管理模块2和数据标准管理平台1,用于根据质量管理规范生成数据质量管理标准,并根据数据质量管理标准对元数据的管理过程进行质量管控;

公共管理与门户模块4,分别连接元数据管理模块2、数据标准管理平台1和数据质量管理模块3,用于为元数据管理模块2、数据标准管理平台1和数据质量管理模块3提供统一的用户权限管理支持和导航查询。

具体地,本实施例中,数据治理系统是进行数据治理和数据管理的重要工具,能够整合平台各个环节的元数据资产,以便进行元数据的浏览和分析,也是形成数据资源管理门户的来源。数据治理系统提供可视化元数据管理模块2,满足进行库表元数据的查看,数据之间血缘关系与影响的查看,以及数据之间依赖关系的分析。

数据治理系统包括元数据管理模块2、数据标准管理平台1、数据质量管理模块3、公共管理与门户模块4和数据立方体设计工作,用于支持从区级数据湖中按需提取数据,根据所制定的数据标准和业务模型等进行数据立方体建模和数据治理,形成基础库、主题库,并对所有数据资源中心里存储的数据资源进行元数据管理、血源分析等数据资源管理工作。

本实施例中,使用联机分析处理技术对元数据的数据集进行分析处理。联机分析处理是一种多维分析技术,帮助业务人员快速、交互的从多方面了解并观察数据,从而深度掌握其中的信息。联机分析处理采用多维视图立方体的概念去描述一个数据集的结构。数据集中字段按照对于决策所起的作用被分为维度和度量两类:维度是描述事实记录的特征属性,相当于立方体中的坐标轴,例如时间、位置,度量是对事实记录反映出的数据,数值字段的统称,相当于在坐标中的位置,例如销售额、产量、人口。联机分析处理从维度变换出发,提供钻取、切片切块、旋转等操作。钻取是对维度不同粒度不同层次(高层次到低层次,低层次到高层次)的分析;切片切块是选取特定的维度,在限定的维度中执行分析;旋转是对维度方向的变换。决策人员可以通过这些操作,从原始数据中提炼出的反映政务运作情况的直观易懂的数据,从而对决策提供支持。数据立方体设计工具服务于主题库中需要进行高效维度查询的业务库。立方体设计通过可视化界面进行立方体设计,主要满足于M-OLAP场景数据集市的构建,基于已有的数据表建立符合业务特点的优化存储数据表,使得基于源数据表的查询能够落在优化存储的数据表上,进而加速查询性能,提高查询并发度。支持所建立方体实例化于分布式文件系统;支持增量构建和降维优化;能支持雪花模型和星形模型;能支持多种格式的数据源,包括分布式文件系统、关系数据库管理系统;支持对立方体进行生命周期管理,包括立方体建立、更新、删除的监控管理;能支持立方体模型导入和导出。

本实施例中,数据标准管理平台1是依据数据标准管理规范,对数据标准的制定过程和内容进行管理,数据标准管理平台1主要功能如下:

导入外部标准:提供以Excel模板方式,导入外部国家标准或行业标准,支持数据项、数据字典、指标等类型的标准导入,并支持按元模型进行扩展。

数据标准映射:建立数据库系统到数据标准的映射关系,保证数据标准的落地与执行。

数据标准编目:支持自定义数据标准目录结构以及内容,并提供相应的查询,浏览和使用页面。

数据资源关联:支持将数据标准与任意资源进行关联。提供数据标准与元数据、数据资源的关联分析,分析引用指定标准的数据资源分布,以及标准的引用统计。

数据标准维护:实现标准的维护功能,包括标准新增、变更、审核等功能,支持标准版本管理和比对功能,对标准变更情况进行记录。

标准格式配置:支持自定义数据标准的存储和展示格式、类型。

数据质量管理是依据数据质量管理规范,为数据质量管理过程提供支持,使得能够根据数据标准匹配检核规则,根据元数据自动匹配检核对象。数据质量管理的主要过程包括质量规则配置和数据质量检核,能够解决数据完整性、唯一性、权威性、一致性、合法性等问题。

本发明的较佳的实施例中,元数据管理模块2采用分层架构,如图2所示,分层架构由下至上包括:

采集层21,用于采集各种元数据,并对各元数据进行初步的数据解析得到各元数据之间的元数据关系;

存储层22,用于对采集层21输入的各元数据进行集中存储,并对元数据关系进行存储;

应用层23,用于对元数据及元数据关系进行分析及管理;

服务层24,用于提供基于元数据的对外服务。

具体地,本实施例中,采集层21进行元数据采集的过程包括:采集数据源管理:本技术方案提供各类元数据数据源管理功能,包括对不同类型采集源的接入、采集源参数配置等。

采集模板管理:本技术方案提供模板管理用于采集元数据,为技术人员维护元数据提供了辅助的技术手段。模板功能主要为自动和手动导入元数据时使用,该功能主要提供技术人员导出需要导入元数据的数据模板,方便提供导入数据的格式。

元数据映射管理:为解决在企业信息化建设中存在的不同层之间的多个元数据,但描述的是同一个元数据的现象,也包括在设计和实现之间存在的多个元数据,但描述的是同一元数据的现象,本技术方案通过提引入元数据映射管理的概念,通过配置元数据之间的映射关系,在有映射关系的元数据目录下如果元数据的代码相同则认为是同一元数据。

还包括采集任务管理和采集调度管理。

本发明的较佳的实施例中,采集层21通过预先配置的采集适配器和/或预先生成的数据导入模块进行各元数据的采集。

具体地,本实施例中,采集层21还实现对采集适配器管理:本技术方案提供从企业各个系统中采集元数据信息,支持采集任务配置和采集的模型结果信息的查看。本技术方案支持多种关系数据库、城市级数据中台、存储过程、建模工具等元数据信息采集。

本发明的较佳的实施例中,元数据包括:

分布式文件系统元数据、分布式数据仓库元数据、分布式NoSQL数据库元数据、数据检索组件元数据和实时流计算组件元数据中的一种或多种。

具体地,本实施例中,元数据是数据治理系统的各组件(分布式文件系统、分析型数据仓库、分布式NoSQL数据库、数据检索组件、实时计算组件等)存放有关数据信息的地方,其用途是用来描述数据,包括创建信息、所属空间、访问权限、类型描述等等。数据治理系统需要提供高可用数据库为所有组件提供元数据统一管理存储。

分布式文件系统元数据包含文件名、目录名、父目录信息、文件大小、创建时间、修改时间等文件属性信息,还需包含文件分块情况、复本个数、每个复本所在节点等存储相关信息;还记录数据所属关系,提供用户所属用户、用户组信息,可以标记用户和用户组的权限。

分布式数据仓库元数据包括:

库级元信息:包含库名、描述信息、创建者、创建时间、库内建表查表权限等。

表级元信息:包含表名、描述信息、创建者、创建时间、所属库、表内字段、表内增删改查权限、删除表权限等。

字段元信息:包含字段名、描述信息、字段类型、默认值、是否为空、用户访问权限等。

分布式NoSQL数据库元数据指分布式数仓中NoSQL数据库映射表的元数据。类似分布式数仓表级和字段权限,包含表名、表描述信息、创建者、创建时间、所属库、表内字段、表内增删改查权限、删除表权限、字段名、字段描述信息、字段类型、用户访问权限等。

数据检索组件元数据指分布式数仓中数据检索引擎映射表的元数据。类似分布式数仓表级和字段权限,包含表名、表描述信息、创建者、创建时间、所属库、表内字段、表内增删改查权限、删除表权限、字段名、字段描述信息、字段类型、用户访问权限等。

实时流计算组件元数据实时流计算有三个核心的概念:流、流任务和流应用。流即数据流,流任务是对一个或多个流数据进行计算并将结果写进一张表的任务,流应用是一个或多个流任务的集合。

流元信息需包含流名、描述信息、创建者、创建时间、所属库、流内字段、流内增删改查权限、删除流权限等。

流任务元信息需包含任务名、描述信息、创建者、启动时间、所属库、任务逻辑、启停权限等。

流应用元信息需包含应用名、描述信息、创建者、创建时间、所属库、应用内流任务信息等。

本发明的较佳的实施例中,应用层23包括:

血缘分析单元231,用于对各元数据进行血缘分析获取各元数据的数据来源;

影响分析单元232,用于对各元数据发生变更时对其他系统和数据产生的影响进行分析。

数据重要性分析单元233,用于从各元数据的被使用频率、被访问次数、暗数据判别结果来分析各元数据的重要性;

分析结果导出单元234,分别连接血缘分析单元231、影响分析单元232和数据重要性分析单元233,用于将各元数据的分析结果进行导出。

具体地,本实施例中,血缘分析单元231利用元数据进行血缘分析,向上追溯数据的来源,用于为系统运维、数据质量问题的追踪溯源供参考。

影响分析单元232向下分析一个元数据对象变更对下游系统的影响,用于元数据发生变更时,分析对其他系统和数据的影响。

数据重要性分析单元233分别从数据被使用的频率、被访问的次数、是否是暗数据来分析其重要程度。

分析结果导出单元234对各元数据分析的结果进行导出。

本发明的较佳的实施例中,应用层23还包括元数据管理单元235,用于对元数据进行元数据视图管理,和/或元数据维护,和/或元数据查询,和/或元数据导出,和/或元数据版本管理和/或元数据变更管理。

具体地,本实施例中,元数据视图管理是指数据治理系统提供按照业务线的企业数据视图,方便业务人员从业务视角查看数据。

元数据维护是指元数据基本信息、属性、被依赖关系、依赖关系、组合关系的查询修改和删除操作。

元数据查询是指根据搜索条件,查询符合数据访问权限的元数据。

元数据导出是指数据治理系统提供元数据导出功能。

元数据版本管理是指数据治理系统提供元数据的生命周期管理,发布、删除和状态变更都有严格的流程,并提供了版本管理功能。

元数据变更管理是指用户可以自行订阅关注的元数据,当这些元数据发生变更后,数据治理系统将以用户指定的形式通知用户变更的发生,用户可根据指引,进一步在系统中查询到该变更的具体内容及相关的影响分析。

本发明的较佳的实施例中,数据质量管理模块3包括:

标准映射单元31,用于根据质量管理规范生成相应的约束或模板,供用户对数据质量规则、评分卡和知识库的进行定制;

检核管理单元32,用于供用户对计算生成的检核任务进行配置和调度管理;

数据质量报告数据库33,用于根据检核任务对应的检核结果生成定制化的数据质量报告;

问题管理单元34,连接数据质量报告数据库33,用于根据数据质量报告进行数据质量问题的发现、报警和处理。

具体地,本实施例中,标准映射单元31基于标准平台的相关标准生成相应约束或者模板,提供用户对数据质量规则,评分卡以及知识库的定制;检核管理单元32支持用户对检核任务进行配置,调度管理。相关检核任务在思贤自研基于apachespark的数据质量分析engine中计算生成,并通过“通用组件和服务层24”中的计算调度模块来实现调度管理;数据质量报告数据库33根据检核结果生成定制化的数据质量报告,包括质量总结、质量趋势分析等,支持各种定制化查询;问题管理单元34支持对数据质量报告进行相关数据质量问题的发现,报警和处理。

数据质量管理模块3主要功能包括:

质量规则配置,实现数据质量度量规则和检核方法管理。配置实现检核任务管理,通过界面维护任务,支持根据数据标准生成质量检核方法。

数据质量检核,按照数据质量规则对依次对检核对象进行合规性检核,在发现数据质量问题之后,记录问题数据和异常记录。

数据质量问题明细报告,针对检核任务在执行之后,需要出具数据质量问题报告,对问题的总体情况进行描述,并按照权属部门、资源分类等维度出具明细质量报告。

质量管理工具,通过数据迁移工具可进行数据清洗转换等规则设定,对质量管理过程进行调度设计,将数据标准化工作嵌入到业务流程中,以实现按照统一数据标准和治理规范明确数据的类型、定义与规则的目的。

数据质量稽核,利用大数据支撑平台提供的分析型数据仓库提供数据稽查功能,根据规则(包括但不限于数据误读、字段类型不匹配、UDF条件过滤)将脏数据写入指定的脏数据表,在数据导入完成后,记录脏数据原因、记录数、导入接口以及数据质量报告,以方便监控程序判断以及处理。

本发明的较佳的实施例中,公共管理与门户模块4包括:

公共管理单元41,用于提供用户管理、角色管理、权限管理、日志管理、数据库管理、安全管理和审计管理的服务,实现为元数据管理模块2、数据标准管理平台1和数据质量管理模块3提供统一的用户权限管理支持。

具体地,本实施例中,用户管理:对接统一身份认证平台提供包括元数据、数据标准、数据质量等模块的用户管理,包括用户信息、密码验证等。

角色管理:根据不同的业务部门及职责,划分不同的角色,如管理员、数据主题管家、查询用户等。

权限管理:数据治理的相关权限的管理,包括权限定义、权限分配和权限移除。

日志管理:包括数据标准、数据质量、元数据等功能模块的相关日志以及系统自身的运行日志等的管理。

知识库管理:数据治理相关知识库管理,包括数据问题的处理知识、检核规则制定知识等。

安全管理:支持页面水印展示,能够根据网段区分访问权限等。

审计管理:支持对增删改查等操作的审计。

本发明的较佳的实施例中,公共管理与门户模块4还包括:

门户单元42,用于提供查询检索、导航、通用功能和门户管理的服务,实现为元数据管理模块2、数据标准管理平台1和数据质量管理模块3提供导航查询。

具体地,本实施例中,查询检索:包含输入关键字进行精确及模糊搜索相关信息的查询与导出,如数据标准信息项查询、质量规则查询和数据字典查询。

导航:用于从不同维度指引用户找到相关功能的入口,包括功能导航、分类导航和角色导航等。

通用功能:提供用户各种便捷功能,包括公告版、消息通知、订阅服务、收藏夹和待办事项等。

门户管理:对门户进行管理、检索和用户自定义浏览视图等。

以上仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号