首页> 中国专利> 一种数据集散发布方法及系统

一种数据集散发布方法及系统

摘要

本发明属于数据处理领域,具体公开了一种数据集散发布方法及系统,所述方法包括:数据采集过程,通过多路采集端口采集数据,并对采集的数据进行预处理、标记、分发;数据抽取过程,基于上述分发的数据并对数据进行规则算法抽取、合并以及数据抽取数据分析过程,对抽取的数据进行数据分析,数据分析后将数据输送至数据仓库和主体数据库中进行储存,同时通过多维数据库完成数据展现,并通过数据发布子系统进行发布。本发明能对数据进行集散处理,使得系统中在获取不同的数据时更有效的对数据进行处理,操作方便,提高数据获取效率。

著录项

  • 公开/公告号CN112597232A

    专利类型发明专利

  • 公开/公告日2021-04-02

    原文格式PDF

  • 申请/专利权人 南京小灿灿网络科技有限公司;

    申请/专利号CN202011587648.5

  • 发明设计人 姚文巨;

    申请日2020-12-29

  • 分类号G06F16/25(20190101);G06F16/28(20190101);

  • 代理机构32431 南京司南专利代理事务所(普通合伙);

  • 代理人于淼

  • 地址 210009 江苏省南京市鼓楼区集庆门大街272号2幢1504室

  • 入库时间 2023-06-19 10:27:30

说明书

技术领域

本发明涉及数据处理领域,具体为一种数据集散发布方法及系统。

背景技术

随着经济和科技的不断发展,现实世界中各方面的数据量也急剧增长。数据驱动的智能系统就成为了人工智能和机器学习的前沿重要研究课题。传统的技术已经无法支撑对庞大数据的处理,并且从现存的数据分类算法来看,很多算法也都是基于大规模的学习样本来训练得到分类参数。但当移动终端时代的来临,学习样本的数量严重制约了相应的智能数据分类系统的应用与推广,并且其中的噪声数据也会影响分类系统的准确性。为了提升相应智能系统的性能,数据的数据集散发布就成为了必要的技术。

当前数据集散处理在数据采集、分析、展现上存在以下薄弱点:缺乏对重要实时数据统一集散的系统,来实现重要数据的采集存储、监控告警、追溯分析等功能,同时针对多维度统计分析困难,不利于整体数据的集散发布。

发明内容

本发明的目的在于提供一种数据集散发布方法及系统,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:一种数据集散发布方法,包括如下步骤:

S1:数据采集过程,通过多路采集端口采集数据,并对采集的数据进行预处理、标记、分发;

S2:数据抽取过程,基于S1中分发的数据并对数据进行规则算法抽取、合并以及数据抽取;

S3:数据分析过程,对抽取的数据进行数据分析,数据分析后将数据输送至数据仓库和主体数据库中进行储存,同时通过多维数据库完成数据展现,并通过数据发布子系统进行发布。

优选的,S1中具体包括:S11:通过多路采集接口采集原始数据,并对该原始数据进行汇聚以及预处理;S12:对预处理后的数据进行代表性样本抽取,且抽取过程基于原始数据的每个属性极大、极小、平均的标准;S13:利用正交化策略进行样本矫正,选择出最优样本数据;S14:对该最优样本数据进行数据标记、分发,将其分别分发至分析子系统,并由分析子系统进行数据抽取及分析。

优选的,S11中预处理包括:去除该原始数据中的含缺失值的记录以及异常值,利用数据集合的秩与类别数对其进行预切割。

优选的,S2中具体包括:S21:通过关联规则算法对分发的原始数据进行抽取,得到预处理数据结果表;S22:通过hive连接算法将预处理数据结果表进行合并,并将其导入至大数据平台;S23:大数据平台基于相关度从预处理数据中提取关键数据;且相关度公式为

优选的,S3中数据展现通过报表方式和/或数据看板的方式进行数据展现,其中数据看板是将数据按照相关的数据分析模型进行数据抽取,并使用图表、数据表格进行。

本发明还提供了上述一种数据集散发布系统,所述据集散发布系统包括采集端口、数据预处理子系统、数据分析子系统与数据发布子系统,其中采集端口设有多路,多路采集原始数据,并将该原始数据发送至数据预处理子系统;所述数据预处理子系统基于规则算法与抽取算法对采集的数据进行预处理、标记、分发、抽取以及数据分析;所述数据发布子系统包含有多维数据库以及数据发布库,多维数据库将分析处理后的数据进行存储以及数据展现,数据发布库将分析处理后的数据进行发布。

与现有技术相比,本发明的有益效果是:

本发明能对数据进行集散处理,使得系统中在获取不同的数据时更有效的对数据进行处理,操作方便,提高数据获取效率,同时保障了数据稳定性和可用性;通过分析系统对数据进行分析后,可通过数据发布库将分析处理后的数据进行发布。

附图说明

图1为本发明方法的流程框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,本发明提供一种技术方案:一种数据集散发布方法一种数据集散发布方法,包括如下步骤:

S1:数据采集过程,通过多路采集端口采集数据,并对采集的数据进行预处理、标记、分发;

S2:数据抽取过程,基于S1中分发的数据并对数据进行规则算法抽取、合并以及数据抽取;

S3:数据分析过程,对抽取的数据进行数据分析,数据分析后将数据输送至数据仓库和主体数据库中进行储存,同时通过多维数据库完成数据展现,并通过数据发布子系统进行发布。

在本实施例中,S1中具体包括:S11:通过多路采集接口采集原始数据,并对该原始数据进行汇聚以及预处理;S12:对预处理后的数据进行代表性样本抽取,且抽取过程基于原始数据的每个属性极大、极小、平均的标准;S13:利用正交化策略进行样本矫正,选择出最优样本数据;S14:对该最优样本数据进行数据标记、分发,将其分别分发至分析子系统,并由分析子系统进行数据抽取及分析。

在本实施例中,S11中预处理包括:去除该原始数据中的含缺失值的记录以及异常值,利用数据集合的秩与类别数对其进行预切割。

在本实施例中,S2中具体包括:S21:通过关联规则算法对分发的原始数据进行抽取,得到预处理数据结果表;S22:通过hive连接算法将预处理数据结果表进行合并,并将其导入至大数据平台;S23:大数据平台基于相关度从预处理数据中提取关键数据;且相关度公式为

在本实施例中,S3中数据展现通过报表方式和/或数据看板的方式进行数据展现,其中数据看板是将数据按照相关的数据分析模型进行数据抽取,并使用图表、数据表格进行。

本发明还提供了上述一种数据集散发布系统,所述据集散发布系统包括采集端口、数据预处理子系统、数据分析子系统与数据发布子系统,其中采集端口设有多路,多路采集原始数据,并将该原始数据发送至数据预处理子系统;所述数据预处理子系统基于规则算法与抽取算法对采集的数据进行预处理、标记、分发、抽取以及数据分析;所述数据发布子系统包含有多维数据库以及数据发布库,多维数据库将分析处理后的数据进行存储以及数据展现,数据发布库将分析处理后的数据进行发布。

在本实施例中,数据分析子系统为定时处理,可设定执行时间,数据分析子系统启动时会判断当前时间是否到执行过时间,是则继续执行,否则直接结束。针对前一日和当日数据进行分析处理,并把处理结果保存到数据库。针对前一周和当周数据进行分析处理,并把处理结果保存到数据库。针对前一月和当月数据进行分析处理,并把处理结果保存到数据库。针对前一年和当年数据进行分析处理,并把处理结果保存到数据库,可以提高业务准确度,降低运营成本,以及可以避免数据反复处理,提高处理效率。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号