公开/公告号CN112328708A
专利类型发明专利
公开/公告日2021-02-05
原文格式PDF
申请/专利权人 深圳市般若大数据技术有限公司;
申请/专利号CN202011273030.1
申请日2020-11-13
分类号G06F16/28(20190101);G06F16/2455(20190101);G06F16/242(20190101);
代理机构44495 深圳深瑞知识产权代理有限公司;
代理人穆瑞丹
地址 518000 广东省深圳市南山区粤海街道麻岭社区高新中二道2号深圳国际软件园3栋502
入库时间 2023-06-19 09:49:27
技术领域
本发明属于数据仓库领域,具体是一种多数据源实时聚合的混合数据仓库技术。
背景技术
数据仓库是为给企业所有级别的决策制定过程,提供所有类型数据支持的战略集合,被认为是商业智能的核心组件;它是信息的中央存储库,出于分析性报告和决策支持目的而创建。数据仓库为需要业务智能的企业提供指导,包括业务流程改进,监视并控制时间、成本、质量等;
在对企业多系统多数据源进行聚合分析时,我们通常是给企业建立数据仓库,然后将不同数据源的数据定时通过ETL工具对数据进行抽取、装换、装载到新建立的数据仓库之中,然后分析系统通过连接新建立的数据仓库对数据进行聚合分析;
然后传统的方式再进行作业时会出现如下技术问题:一是,需要建立数据仓库,成本对于中小企业无法控制;二是在对数据进行分析时,需要借助etl预处理数据,其开发实施周期长;三是,数据是定时同步到数据仓库,无法实时对数据进行聚合分析。
发明内容
本发明的目的在于克服现有技术的缺陷,提供一种多数据源实时聚合的混合数据仓库技术。
为实现上述目的,本发明采用了如下技术方案:
一种多数据源实时聚合的混合数据仓库技术,包括数据聚合查询中间件,该中间件包含查询脚本、查询客户端、查询解析引擎、源数据源装载组件以及目标数据源聚合组件;
所述查询脚本是一种扩展版本的结构化数据库查询语言脚本,由多片段结构化数据库查询语言组成,每个片段定义了查询的数据和要查询的数据源和生效时间;
所述查询客户端用于接收查询脚本,并将其发送到查询解析引擎;
所述查询解析引擎用于解析查询脚本,将其分拆成不同的结构化数据库查询语言,并查询发送到源数据装载组件和目标数据源聚合组件;
所述源数据源装载组件用于接收查询脚本从数据源之中获取数据和表结构,并将其发送到目标数据源聚合组件;
所述目标数据源聚合组件用于接收源数据源装载组件结构和数据,转为新的零时表并接收查询脚本返回聚合数据。
优选的,在对所需数据进行查询时,其具体流程为:
首先,使用查询解析引擎对至少两组业务数据源进行查询,得到所需的数据集片段;
然后,使用源数据源装载组件,接收数据集片段的新数据源;
最后,在目标数据源聚合组件中查询新数据源的聚合数据集片段即可。
优选的,在所述标数据源聚合组件中查询到数据结果后还存在如下步骤:
步骤一:对查询客户端进行联网,将查询结果进行备份,并定期清理存储器内的存储空间;
步骤二:将查询结果上传到网络端,并利用大数据分析技术,对查询结果进行汇总,对查询次数靠前的数据源进行关键词生成;
步骤三:对查询过程中未出现的关键词进行记录和统计,生成新的关键词,用于补充数据库。
优选的,在所述步骤一中,进行备份时将数据上传企业云空间和存储器内,仅对存储器进行定期清理存储空间,清理周期可设定为一周、一月以及一年。
优选的,所述存储器包含硬盘组,该硬盘组由若干组移动硬盘组成。
优选的,所述结构化数据库查询语言包含数据定义语言、数据操作语言、数据查询语言以及数据管理语言,所述数据定义语言针对的是数据库逻辑结构的操作,所述数据操作语言和数据查询语言针对的是具体的数据,所述数据管理语言针对的是权限部分的管理。
与现有技术相比,本发明提供了一种多数据源实时聚合的混合数据仓库技术,具有如下有益效果:
本发明采用的是按需装载原则,用户只需要编写好数据查询脚本,便能自动抓取不同数据源的数据片段导入到新的数据源,在新的数据源中做聚合查询;
与已有的数据库建仓相比,该种方式无需监督建仓,只需编写查询脚本,省去了复杂的ETL过程,对企业的数据查询作业提供了便利。
附图说明
图1是本发明中数据查询的具体流程图。
具体实施方式
以下结合附图1,进一步说明本发明一种多数据源实时聚合的混合数据仓库技术的具体实施方式。本发明一种多数据源实时聚合的混合数据仓库技术不限于以下实施例的描述。
一种多数据源实时聚合的混合数据仓库技术,包括数据聚合查询中间件,该中间件包含查询脚本、查询客户端、查询解析引擎、源数据源装载组件以及目标数据源聚合组件。
查询脚本是一种扩展版本的结构化数据库查询语言脚本,由多片段结构化数据库查询语言组成,每个片段定义了查询的数据和要查询的数据源和生效时间;
查询客户端用于接收查询脚本,并将其发送到查询解析引擎;
查询解析引擎用于解析查询脚本,将其分拆成不同的结构化数据库查询语言,并查询发送到源数据装载组件和目标数据源聚合组件;
源数据源装载组件用于接收查询脚本从数据源之中获取数据和表结构,并将其发送到目标数据源聚合组件;
目标数据源聚合组件用于接收源数据源装载组件结构和数据,转为新的零时表并接收查询脚本返回聚合数据;
本发明采用的是按需装载原则,用户只需要编写好数据查询脚本,便能自动抓取不同数据源的数据片段导入到新的数据源,在新的数据源中做聚合查询;
与已有的数据库建仓相比,该种方式无需监督建仓,只需编写查询脚本,省去了复杂的ETL过程,对企业的数据查询作业提供了便利。
如图1所示,在对所需数据进行查询时,其具体流程为:
首先,使用查询解析引擎对两组业务数据源进行查询,得到所需的数据集片段;
另外的,上述使用查询解析引擎时,也可对三组及三组以上的业务数据源进行查询,数据源越多,所需的数据集片段也就越多,从而保证最终数据查询后的完整性。
然后,使用源数据源装载组件,接收数据集片段的新数据源;
最后,在目标数据源聚合组件中查询新数据源的聚合数据集片段即可。
在标数据源聚合组件中查询到数据结果后还存在如下步骤:
步骤一:对查询客户端进行联网,将查询结果进行备份,并定期清理存储器内的存储空间;
步骤二:将查询结果上传到网络端,并利用大数据分析技术,对查询结果进行汇总,对查询次数靠前的数据源进行关键词生成;
步骤三:对查询过程中未出现的关键词进行记录和统计,生成新的关键词,用于补充数据库;该步骤的作用是为了方便后来的人在进行关键词查询时能够进行针对性的捕捉。
在步骤一中,进行备份时将数据上传企业云空间和存储器内,仅对存储器进行定期清理存储空间,清理周期可设定为一周、一月以及一年;存储器包含硬盘组,该硬盘组由若干组移动硬盘组成。
结构化数据库查询语言包含数据定义语言、数据操作语言、数据查询语言以及数据管理语言,数据定义语言针对的是数据库逻辑结构的操作,数据操作语言和数据查询语言针对的是具体的数据,数据管理语言针对的是权限部分的管理。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
机译: 一种用于显示技术和光电技术的液晶与聚合物的混合物的获得方法
机译: 用于车辆的广播无线电接收机,具有控制模块,该模块将一种无线电技术的信号与另一种无线电技术的另一种信号混合以形成混合音频信号,以监视先前信号的质量为基础
机译: 一种用于并行维护数据仓库中物化视图的并行处理技术