首页> 中国专利> 一种可追溯信息来源的信息存储的方法和系统

一种可追溯信息来源的信息存储的方法和系统

摘要

本发明实施例公开了一种可追溯信息来源的信息存储的方法和系统。该方法包括:获取日志数据和对应的数据来源信息;提取所述日志数据中的对象信息,所述对象信息包括对象身份标识信息和对象属性信息,所述对象属性信息包括属性值和对应的统计信息;根据所述对象信息和数据来源信息生成树状结构的对象追溯信息,并存储到数据库中。本发明实施例通过获取日志数据和对应的数据来源信息,提取所述日志数据中的对象信息,根据所述对象信息和数据来源信息生成树状结构的对象追溯信息,并存储到数据库中,以实现优化非关系型数据库中溯源数据的存储,节约大量存储空间。

著录项

  • 公开/公告号CN107644103A

    专利类型发明专利

  • 公开/公告日2018-01-30

    原文格式PDF

  • 申请/专利权人 北京锐安科技有限公司;

    申请/专利号CN201710958600.2

  • 发明设计人 谢永恒;李俊浩;火一莽;万月亮;

    申请日2017-10-16

  • 分类号

  • 代理机构北京品源专利代理有限公司;

  • 代理人孟金喆

  • 地址 100044 北京市海淀区西小口路66号中关村东升科技园北领地B-2号楼七层

  • 入库时间 2023-06-19 04:21:55

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-10-04

    专利实施许可合同备案的生效 IPC(主分类):G06F16/17 专利申请号:2017109586002 专利号:ZL2017109586002 合同备案号:X2022990000655 让与人:北京锐安科技有限公司 受让人:北京鼎普科技股份有限公司 发明名称:一种可追溯信息来源的信息存储的方法和系统 申请日:20171016 申请公布日:20180130 授权公告日:20200609 许可种类:普通许可 备案日期:20220916

    专利实施许可合同备案的生效、变更及注销

  • 2020-06-09

    授权

    授权

  • 2018-03-06

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20171016

    实质审查的生效

  • 2018-01-30

    公开

    公开

说明书

技术领域

本发明实施例涉及大数据的存储及应用技术领域,尤其涉及一种可追溯信息来源的信息存储的方法和系统。

背景技术

溯源顾名思义是追溯源头,探寻事物的根本。通过溯源,人们可以在各个领域查找自己所需要商品的出处,判断其真假,以便维护自己的权利,或者更深入的了解所拥有产品的全面信息。

随着大数据时代的到来,网络用户在访问网页、使用网络应用过程中会产生大量行为日志数据,通常为了有效利用存储空间,提高数据的可读性,需要对海量数据进行分析和提取,存储具有更高价值的数据。同时为保证来源于网络的数据的可靠性,需要对数据进行一定的积累和统计分析,并追溯数据来源。

传统的数据追溯过程是根据某一字段查询来源数据,该方法的缺点是需要提供足够的存储空间来存储海量的行为日志数据,随着海量行为日志数据的积累可用存储空间会不断压缩,最终无法进行存储。

发明内容

本发明提供一种可追溯信息来源的信息存储的方法和系统,以实现优化非关系型数据库中溯源数据的存储,节约大量存储空间。

第一方面,本发明实施例提供了一种可追溯信息来源的信息存储的方法,该方法包括:

获取日志数据和对应的数据来源信息;

提取所述日志数据中的对象信息,所述对象信息包括对象身份标识信息和对象属性信息,所述对象属性信息包括属性值和对应的统计信息;

根据所述对象信息和数据来源信息生成树状结构的对象追溯信息,并存储到数据库中。

第二方面,本发明实施例还提供了一种可追溯信息来源的信息存储的系统,该系统包括:

获取模块,用于获取日志数据和对应的数据来源信息;

对象信息提取模块,用于提取所述日志数据中的对象信息,所述对象信息包括对象身份标识信息和对象属性信息,所述对象属性信息包括属性值和对应的统计信息;

对象追溯信息生成模块,用于根据所述对象信息和数据来源信息生成树状结构的对象追溯信息,并存储到数据库中。

第三方面,本发明实施例还提供了一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现本发明任一实施例所述的可追溯信息来源的信息存储的方法。

第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例所述的可追溯信息来源的信息存储的方法。

本发明实施例通过获取日志数据和对应的数据来源信息,提取所述日志数据中的对象信息,根据所述对象信息和数据来源信息生成树状结构的对象追溯信息,并存储到数据库中,以实现优化非关系型数据库中溯源数据的存储,节约大量存储空间。

附图说明

图1是本发明实施例一提供的一种可追溯信息来源的信息存储的方法的流程图;

图2是本发明实施例二提供的一种可追溯信息来源的信息存储的方法的流程图;

图3是本发明实施例二提供的可追溯信息来源的树状结构信息存储的结构图;

图4是本发明实施例三提供的一种可追溯信息来源的信息存储的系统的结构图;

图5是本发明实施例五提供的一种设备的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。

另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1为本发明实施例一提供的一种可追溯信息来源的信息存储的方法的流程图,本实施例可适用于从海量行为日志数据中提取高价值信息后对溯源数据进行存储的情况,该方法可以由可追溯信息来源的信息存储的系统来执行,具体包括如下步骤:

S110、获取日志数据和对应的数据来源信息。

其中,日志数据由网络用户在访问网页、使用网络的过程等情况下产生,相应的一条日志数据携带有与之对应的来源信息。

S120、提取所述日志数据中的对象信息,所述对象信息包括对象身份标识信息和对象属性信息,所述对象属性信息包括属性值和对应的统计信息。

具体的,可以但不限制于通过Hadoop分布式文件系统对所述日志数据进行整理和分析,得到日志数据中的对象信息。所述日志数据中的对象信息可以为所述日志数据中的高价值信息。所述对象信息包括对象身份标识信息和对象属性信息,所述对象属性信息包括属性值和对应的统计信息。所述对象身份标识信息可以为网络账号、手机号和/或IP地址等,所述对象属性信息可以为姓名、年龄和/或住址等,所述对象属性所对应的统计信息可以为首次产生时间、末次产生时间、产生次数及产生日期等,本发明实施例在此不做限制。

S130、根据所述对象信息和数据来源信息生成树状结构的对象追溯信息,并存储到数据库中。

具体的,所述对象信息包括的对象身份标识信息和数据来源信息可以作为对象追溯信息的唯一标识,当所述对象身份标识信息和数据来源信息任一项发生改变时,则将导致一条新的追溯信息的生成。由于所述对象信息还包括对象属性信息,同一个对象的属性可以包含多条对象属性信息,由此就会形成一个树状结构,即根据所述对象信息和数据来源信息生成树状结构的对象追溯信息,并存储到数据库中。另外,根据不同的对象的属性信息,用户可以实现对数据可靠性更方便高效的判断。

另外需要说明的是随着互联网web2.0网站的兴起,传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS(Social Networking Services,社交网络服务)类型的web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题,而对于非关系型的数据库则由于其本身的特点得到了非常迅速的发展。本发明实施例旨在优化非关系型数据库中的数据,以应对分布式存储的海量行为日志数据,通过在非关系型数据库中生成本发明实施例中树状结构的对象追溯信息,不再对海量的行为日志数据进行逐一的积累式存储,只对海量行为日志数据中高价值信息进行提取,生成树状结构的对象追溯信息,有效的利用数据库中的存储空间,大量的节省了数据库中的存储空间,又提高数据的可读性。

本发明实施例通过获取日志数据和对应的数据来源信息,提取所述日志数据中的对象信息,根据所述对象信息和数据来源信息生成树状结构的对象追溯信息,并存储到数据库中,以实现优化非关系型数据库中溯源数据的存储,节约大量存储空间。

实施例二

图2为本发明实施例二提供的一种可追溯信息来源的信息存储的方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,图3是本发明实施例提供的可追溯信息来源的树状结构信息存储的结构图,如图3所示,在所述树状结构中,以所述对象身份标识信息为根节点,所述数据来源信息为所述根节点的子节点,所述对象属性信息(即属性1…属性N,N是整数且是表示对象身份标识信息和数据来源信息对应的对象属性信息的总数量)为所述数据来源信息的子节点,所述对象属性信息包括属性值及对应的统计信息(即图3中的值统计信息)。在此基础上,将步骤根据所述对象信息和数据来源信息生成树状结构的对象追溯信息进一步优化为:根据所述对象身份标识信息和数据来源信息,查找数据库中是否有对应的对象追溯信息;如果数据库中有对应的对象追溯信息,则根据所述对象属性信息更新所述数据库中对应的对象追溯信息;如果数据库中没有对应的对象追溯信息,则根据所述对象身份标识信息和数据来源信息,生成对应的树状结构的对象追溯信息。

相应的,本实施例的方法具体包括:

S210、获取日志数据和对应的数据来源信息。

S220、提取所述日志数据中的对象信息,所述对象信息包括对象身份标识信息和对象属性信息,所述对象属性信息包括属性值和对应的统计信息。

S230、根据所述对象身份标识信息和数据来源信息,查找数据库中是否有对应的对象追溯信息。

其中,一条所述对象身份标识信息可以从多条所述数据来源信息中获得。在获取到一条数据后,提取到了所述数据的高价值信息,即所述对象信息和数据来源信息,以所述对象身份标识信息为根节点,所述数据来源信息为所述根节点的子节点,所述对象属性信息为所述数据来源信息的子节点,可以用属性1到属性N分别描述不同的属性信息,所述属性信息在树状结构的对象追溯信息的存储时包含两部分:属性值和属性值统计信息,将所述树状结构的对象追溯信息存储到数据库中。

S240、如果数据库中有对应的对象追溯信息,则根据所述对象属性信息更新所述数据库中对应的对象追溯信息。

在数据库中有对应的对象追溯信息时,则进一步确定该对应的对象追溯信息是否包括所述对象属性信息中的属性值,并依据确定结果更新数据库中对应的对象追溯信息中的属性值或者属性值对应的统计信息。

可选的,所述根据所述对象属性信息更新所述数据库中对应的对象追溯信息,包括:

如果所述数据库中对应的对象追溯信息包括所述属性值,则更新对应的统计信息;

如果所述数据库中对应的对象追溯信息不包括所述属性值,则在对应的对象属性信息中新增所述属性值及对应的统计信息。

具体的,根据如图3所示可追溯信息来源的树状结构信息存储的结构图,在确定对象身份标识信息和数据来源信息后,查找到所述数据库中有对应的对象追溯信息且对象追溯信息中包括属性值,则更新对应的属性值统计信息;如果查找到所述数据库中对应的对象追溯信息不包括所述属性值,则在对应的对象属性信息中新增所述属性值及对应的属性值统计信息。

S250、如果数据库中没有对应的对象追溯信息,则根据所述对象身份标识信息和数据来源信息,生成对应的树状结构的对象追溯信息。

在数据块中没有对应的对象追溯信息时,可以根据对象身份标识信息和数据来源信息,新建一个对应树状结构的对象追溯信息,在建立时,可以以图3所述的结构来进行建立。

可选的,所述根据所述对象身份标识信息和数据来源信息,生成对应的树状结构的对象追溯信息,包括:

当数据库中存在所述对象身份标识信息对应的对象追溯信息时,则在对应的对象追溯信息中添加所述数据来源信息对应的节点,并在该节点下添加所述对象属性信息对应的子节点;

当数据库中不存在所述对象身份标识信息对应的对象追溯信息时,则根据所述对象身份标识信息和数据来源信息,新建一个树状结构的对象追溯信息,并将对象属性信息作为所述数据来源信息的子节点。

具体的,在确定对象身份标识信息和数据来源信息后,查找到数据库中没有对应的对象追溯信息,则根据对象身份信息和数据来源信息生成如图3所示可追溯信息来源的树状结构信息存储的结构图,当数据库中存在所述对象身份标识信息对应的对象追溯信息时,则在对应的对象追溯信息中添加所述数据来源信息对应的节点,并在该节点下添加所述对象属性信息对应的子节点;当数据库中不存在所述对象身份标识信息对应的对象追溯信息时,则根据所述对象身份标识信息和数据来源信息,新建一个如图3所示的树状结构的对象追溯信息,并将对象属性信息作为所述数据来源信息的子节点。

需要说明的是步骤240和步骤250的执行由步骤230执行后的判断结果决定,也就是说步骤240和步骤250是每次获取所述对象身份标识信息和数据来源信息后执行的常规操作,具体的执行状态由步骤230中查找数据库中是否有对应的对象追溯信息决定的。

本发明实施例通过获取日志数据和对应的数据来源信息,提取所述日志数据中的对象信息,根据所述对象信息和数据来源信息生成树状结构的对象追溯信息,以所述对象身份标识信息为根节点,所述数据来源信息为所述根节点的子节点,所述对象属性信息为所述数据来源信息的子节点,并存储到数据库中,同时,根据所述对象身份标识信息和数据来源信息,查找数据库中是否有对应的对象追溯信息,如果数据库中有对应的对象追溯信息,则根据所述对象属性信息更新所述数据库中对应的对象追溯信息,如果数据库中没有对应的对象追溯信息,则根据所述对象身份标识信息和数据来源信息,生成对应的树状结构的对象追溯信息,以实现优化非关系型数据库中溯源数据的存储,节约大量存储空间。

实施例三

图4为本发明实施例三提供的一种可追溯信息来源的信息存储的系统的结构图,本实施例可适用于从海量行为日志数据中提取高价值信息后对溯源数据进行存储的情况,该系统可以由可追溯信息来源的信息存储的方法来执行。

如图4所示,所述系统包括:获取模块310、对象信息提取模块320和对象追溯信息生成模块330,其中:

获取模块310,用于获取日志数据和对应的数据来源信息;

对象信息提取模块320,用于提取所述日志数据中的对象信息,所述对象信息包括对象身份标识信息和对象属性信息,所述对象属性信息包括属性值和对应的统计信息;

对象追溯信息生成模块330,用于根据所述对象信息和数据来源信息生成树状结构的对象追溯信息,并存储到数据库中。

本发明实施例通过提供了一种可追溯信息来源的信息存储的系统,通过获取日志数据和对应的数据来源信息,提取所述日志数据中的对象信息,根据所述对象信息和数据来源信息生成树状结构的对象追溯信息,并存储到数据库中,以实现优化非关系型数据库中溯源数据的存储,节约大量存储空间。

在上述各实施例的基础上,在所述树状结构中,以所述对象身份标识信息为根节点,所述数据来源信息为所述根节点的子节点,所述对象属性信息为所述数据来源信息的子节点。

在上述各实施例的基础上,所述对象追溯信息生成模块330,包括:

对象追溯信息查找单元,用于根据所述对象身份标识信息和数据来源信息,查找数据库中是否有对应的对象追溯信息;

对象追溯信息更新单元,用于如果数据库中有对应的对象追溯信息,则根据所述对象属性信息更新所述数据库中对应的对象追溯信息;

对象追溯信息生成单元,用于如果数据库中没有对应的对象追溯信息,则根据所述对象身份标识信息和数据来源信息,生成对应的树状结构的对象追溯信息。

在上述各实施例的基础上,所述对象追溯信息更新单元,包括:

统计信息更新子单元,用于如果所述数据库中对应的对象追溯信息包括所述属性值,则更新对应的统计信息;

统计信息新增子单元,用于如果所述数据库中对应的对象追溯信息不包括所述属性值,则在对应的对象属性信息中新增所述属性值及对应的统计信息。

在上述各实施例的基础上,所述对象追溯信息生成单元,包括:

节点添加子单元,用于当数据库中存在所述对象身份标识信息对应的对象追溯信息时,则在对应的对象追溯信息中添加所述数据来源信息对应的节点,并在该节点下添加所述对象属性信息对应的子节点;

节点新增子单元,用于当数据库中不存在所述对象身份标识信息对应的对象追溯信息时,则根据所述对象身份标识信息和数据来源信息,新建一个树状结构的对象追溯信息,并将对象属性信息作为所述数据来源信息的子节点。

上述各实施例所提供的可追溯信息来源的信息存储的系统可执行本发明任意实施例所提供的可追溯信息来源的信息存储的方法,具备执行可追溯信息来源的信息存储的方法相应的功能模块和有益效果。

实施例四

本发明实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种可追溯信息来源的信息存储的方法,该方法包括:

获取日志数据和对应的数据来源信息;

提取所述日志数据中的对象信息,所述对象信息包括对象身份标识信息和对象属性信息,所述对象属性信息包括属性值和对应的统计信息;

根据所述对象信息和数据来源信息生成树状结构的对象追溯信息,并存储到数据库中。

可选的,该计算机可执行指令在由计算机处理器执行时还可以用于执行本发明任意实施例所提供的一种可追溯信息来源的信息存储的方法的技术方案。

通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

实施例五

如图5所示,为本发明实施例五提供的一种设备的硬件结构示意图,如图5所示,该设备包括:

一个或多个处理器410,图5中以一个处理器410为例;

存储器420;

所述设备还可以包括:输入装置430和输出装置440。

所述设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接,图5中以通过总线连接为例。

存储器420作为一种非暂态计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的一种可追溯信息来源的信息存储的方法对应的程序指令/模块(例如,附图4所示的获取模块310、对象信息提取模块320和对象追溯信息生成模块330)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述方法实施例的一种可追溯信息来源的信息存储的方法。

存储器420可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非暂态性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中,存储器420可选包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号