首页> 中国专利> 一种数据可视化画法匹配装置及方法

一种数据可视化画法匹配装置及方法

摘要

本发明涉及一种数据可视化画法匹配装置及方法。包括样本库、基于样本库匹配的画法匹配、括基于机器学习模型的画法匹配和基于输入限制规则的画法匹配;所述基于样本库匹配的画法匹配,是指根据输入的第二数据集描述表记载的表结构信息,将第二数据集的维度和指标描述信息与样本中第一数据集描述表中的维度和指标描述信息进行相似度对比,以筛选出与第二数据集表结构相似度最高的第一数据集,将所述相似度最高的第一数据集在所述样本中对应的画法作为第二数据集的匹配画法。本发明匹配的可视化画法准确率高、智能化程度高。

著录项

  • 公开/公告号CN113127555A

    专利类型发明专利

  • 公开/公告日2021-07-16

    原文格式PDF

  • 申请/专利权人 北京阿博茨科技有限公司;

    申请/专利号CN201911394440.9

  • 发明设计人 余宙;杨永智;陈文佳;

    申请日2019-12-30

  • 分类号G06F16/26(20190101);G06F16/22(20190101);G06F16/2457(20190101);G06F16/28(20190101);G06N20/00(20190101);

  • 代理机构32284 国浩律师(南京)事务所;

  • 代理人孟睿;孔剑凡

  • 地址 100194 北京市海淀区苏家坨镇西小营南环10号院1幢1115号

  • 入库时间 2023-06-19 11:52:33

说明书

技术领域

本发明涉及一种数据可视化画法匹配装置及方法,尤其涉及一种结合图表解析算法和用户反馈的数据可视化画法匹配装置及方法。

背景技术

商业智能系统(BI)提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处。经过长期的发展,目前主流的BI产品分为传统BI、敏捷BI两大类,且业界的共识是BI下一步将向智能化方向发展。到2020年,自然语言生成和人工智能将成为绝大部分(90%)商业智能平台的标准功能,50%的分析查询将会通过搜索、自然语言处理、语音生成,甚至是自动生成。

数据可视化是BI的核心能力之一,将自然语言搜索查出的结构化数据(数据集)直接以可视化方式呈现,将是BI的核心技术之一。然而,可视化画法存在多样性,如何更智能、更精准地为用户搜索获得数据集匹配具体的可视化画法,则是当前的一个难题。目前,为自然语言搜索获得的数据集匹配可视化画法的方法主要有基于输入限制规则的画法匹配方法,该方法具体为:

步骤一,自然语言搜索并获得查询的数据集(原始数据表);

步骤二,根据查询获得的数据集所包含的维度、指标数量、行数等通用信息,以及时间维度、地理信息维度等特殊信息,根据各类图表的输入限制规则来选择可以使用的可视化画法。输入限制规则一般包括:

柱状图可以容纳1个维度、任意多个指标,或者容纳2个维度、1个指标;

点地图可以容纳1个地理信息维度、1个普通维度和1个指标;

分组表可以容纳任意多个维度和指标;

步骤三,当有多个图表类型(画法)可以使用时,根据数据集行数的多少,选择一种最直观的画法类型呈现给用户。例如,饼图的饼块不宜多于5个,查询获得的数据集如果多于5行数据,则不宜使用饼图来可视化呈现;柱状图的柱子不宜多于20个,查询获得的数据集如果多于20行数据,则不宜使用柱状图来可视化呈现。

上述基于输入限制规则的可视化画法匹配方法存在以下缺陷:

1、根据各类图表的输入限制规则来选择可视化画法,智能化程度低,无法反映用户的搜索偏好,选择的可视化画法难以匹配用户预期。用户的搜索语句中往往隐含其对某些可视化画法的偏好,例如,如果用户的搜索语句中使用了“趋势”一词,则其有可能更倾向于使用折线图来可视化呈现搜索结果。如果用户的搜索语句中使用了“分布”一词,则其有可能更倾向于使用饼图来可视化呈现搜索结果。或是从历史搜索记录中查找该语句采用过哪些画法,这些都是用户本人或有相似需求的人真实产生过的画法。

2、直接根据各类图表的输入限制规则来选择可视化画法,难以考虑维度与指标之间的业务关系,由此选择的画法很难符合实际的业务场景,需要人工二次调整。其次,也没有考虑与业务有关的维度顺序。例如,即使有像所属行业这类维度的层级要高于股票名称,选择的画法往往也在股票投研领域分组表中将股票名称作为第一列。而在实际业务中,各行业都有各自约定俗成的习惯,需要画图逻辑能按行业区分。例如,净利润和净利润同比同时展示时,往往采用前者柱状+后者折线的形式。直接根据各类图表的输入限制规则来选择可视化画法,难以满足这种智能化需求。

3、面临多种画法可选时,千人一面还是千人千面带来的效果差异极大。同样一组数据,企业的高层管理者更偏向于通过图形看宏观趋势,一目了然;业务执行人员则对数值的细微差异敏感,更常看表格。这实际上对BI系统的数据可视化提出了更高的智能化以满足个性化需求,现有方法则难以实现这一点。

发明内容

本发明提出本发明的目的在于解决为一组数据集(包括但不限于自然语言搜索出的数据集)匹配可视化方案(画法)时,准确率(相对于行业惯例,个人偏好)无法自提升或无法快速提升的问题。

为了解决上述技术问题,本发明提供一种数据可视化画法匹配装置,包括样本库和基于样本库匹配的画法匹配单元;样本库中的每一个样本包括第一数据集描述表以及与所述第一数据集描述表相对应的画法描述表;所述第一数据集描述表以表的形式记载了第一数据集的表结构信息;所述画法描述表以表的形式记载了与第一数据集表结构相匹配的画法;所述基于样本库匹配的画法匹配单元,根据输入的第二数据集描述表记载的表结构信息,将第二数据集的维度和指标描述信息与样本中第一数据集描述表中的维度和指标描述信息进行相似度对比,以筛选出与第二数据集表结构相似度最高的第一数据集,将所述相似度最高的第一数据集在所述样本中对应的画法作为第二数据集的匹配画法;所述第一数据集描述表和第二数据集描述表具有相同的结构,包括以下信息中的一项或多项:搜索语句、维度名称、维度类型、维度个数、指标名称、指标单位、指标个数、用户ID;其中,维度名称、维度类型、维度个数、指标名称、指标单位以及指标个数被称为数据集的维度和指标描述信息;所述画法描述表包括以下信息中的一项或多项,以描述匹配的画法:图表类型、X轴维度/指标、Y轴维度/指标、指标标识、颜色、行维度、列维度、数值格式。

较佳地,还包括基于机器学习模型的画法匹配单元和基于输入限制规则的画法匹配单元;所述基于机器学习模型的画法匹配单元,使用样本库中的样本进行训练后,具有依据输入的第二数据集描述表匹配出与第二数据集表结构相匹配的画法的能力;所述基于输入限制规则的画法匹配单元,根据输入的第二数据集描述表,结合各类图表的输入限制规则给出匹配画法;基于样本库匹配的画法匹配单元、基于机器学习模型的画法匹配单元以及基于输入限制规则的画法匹配单元,根据输入的第二数据集描述表,各自完成画法匹配过程。

本发明还提出一种数据可视化画法匹配方法,包括样本库和基于样本库匹配的画法匹配流程;

样本库中的每一个样本包括第一数据集描述表以及与所述第一数据集描述表相对应的画法描述表;所述第一数据集描述表以表的形式记载了第一数据集的表结构信息;所述画法描述表以表的形式记载了与第一数据集表结构相匹配的画法;

所述基于样本库匹配的画法匹配流程,根据输入的第二数据集描述表记载的表结构信息,将第二数据集的维度和指标描述信息与样本中第一数据集描述表中的维度和指标描述信息进行相似度对比,以筛选出与第二数据集表结构相似度最高的第一数据集,将所述相似度最高的第一数据集在所述样本中对应的画法作为第二数据集的匹配画法;

所述第一数据集描述表和第二数据集描述表具有相同的结构,包括以下信息中的一项或多项:

搜索语句、维度名称、维度类型、维度个数、指标名称、指标单位、指标个数、用户ID;其中,维度名称、维度类型、维度个数、指标名称、指标单位以及指标个数被称为数据集的维度和指标描述信息;

所述画法描述表包括包括以下信息中的一项或多项,以便描述具体的匹配画法:

图表类型、X轴维度/指标、Y轴维度/指标、指标标识、颜色、行维度、列维度、数值格式。

较佳地,还包括基于机器学习模型的画法匹配流程和基于输入限制规则的画法匹配流程;

所述基于机器学习模型的画法匹配流程,包括使用样本库中的样本进行训练后具有依据输入的第二数据集描述表匹配出与第二数据集表结构相匹配的画法的能力;当向机器学习模型输入第二数据集描述表后,匹配出相应的画法;

所述基于输入限制规则的画法匹配流程,根据输入的第二数据集描述表,结合各类图表的输入限制规则给出匹配画法;

基于机器学习模型的画法匹配流程、基于输入限制规则的画法匹配流程以及基于样本库匹配的画法匹配流程,根据输入的第二数据集描述表,各自完成画法匹配过程。

在上述方法或装置中,所述基于样本库匹配的画法匹配流程或基于样本库匹配的画法匹配单元的运行过程为:

步骤S100,获取第二数据集描述表记载的表结构信息后,在样本库中筛选出维度个数、维度类型以及指标个数均与第二数据集描述表所记载的对应信息相一致的第一数据集描述表所属的样本;若在各样本中没有筛选出与第二数据集描述表所记载的对应信息相一致的第一数据集描述表,则终止在该单元中的任务;

步骤S200,从步骤S100筛选出的样本中,进一步筛选出每个维度名称下的维度值个数与第二数据集描述表所记载的对应信息相一致的第一数据集描述表所属的样本;若从步骤S100筛选出的样本中没有与第二数据集描述表所记载的对应信息相一致的第一数据集描述表,则取与第二数据集维度值个数最相近的第一数据集描述表所属的样本作为步骤S200筛选出的样本;

步骤S300,从步骤S200筛选出的样本中,进一步筛选出指标名称与第二数据集描述表所记载的对应信息相一致的第一数据集描述表所属的样本;若在各样本中没有筛选出指标名称与第二数据集描述表所记载的对应信息相一致的第一数据集描述表,则取指标单位一致且指标名称相似度最高的第一数据集描述表所属的样本;

步骤S400,从步骤S300筛选出的样本中,进一步筛选出维度名称与第二数据集描述表所记载的对应信息相一致的第一数据集描述表所属的样本;如果维度名称没有完全一致的,则取维度名称与第二数据集描述表所记载的对应信息相似度最高的第一数据集描述表所属的样本作为步骤400筛选出的样本;将筛选出的样本中所记载的画法作为第二数据集的匹配画法。

步骤S500,如果步骤S400筛选出的样本不止一个,即步骤S400匹配的画法不止一个,则统计相同画法的数量,将数量最大的画法作为为最优匹配画法。

步骤S600,如果在步骤S400筛选出的样本存在当前用户ID曾经使用过的样本,则将当前用户ID最近一次使用过的样本中的画法作为优选匹配画法。

较佳地,对于画法匹配流程、基于输入限制规则的画法匹配流程以及基于样本库匹配的画法匹配流程各自匹配的画法,排重后按照预先设定的优先级确定最终的匹配画法提供给前端。

较佳地,如果用户在前端对匹配的画法进行了修改,则将修改后的画法和第一数据集配对后形成新的样本添加至样本库。

本发明与现有技术相比,其显著优点在于:

(1)使得原来千人一面的画法匹配,变得因行业而异,因人而异,且越用越准,降低了用户数据可视化知识,甚至是行业知识的要求,节省了大量二次修改画法的时间。

(2)现有技术需要实施人员花费大量精力人工录入,人工配置的可视化规则,被自动化+图像算法识别替代,降低了BI产品的实施成本。

(3)不同智能化等级的三个独立的画法匹配方法,相互补充,相互兜底,提升了系统容错率。

(4)样本库同时吸收机器自动录入和人工反馈的样本,既作为画法查找的数据源,又作为画法模型的训练集,提升了匹配精准度。

(5)画法匹配中考虑了用户的ID,从而可以更个性化匹配画法。

对于未提及的其他优点,将在具体实施方式部分结合技术方案进行说明。

附图说明

图1是本发明画法匹配装置结构示意图。

图2是本发明画法匹配装置的数据处理流程示意图。

图3是本发明中基于样式库的画法匹配单元结构示意图。

具体实施方式

容易理解,依据本发明的技术方案,在不变更本发明的实质精神的情况下,本领域的一般技术人员可以想象出本发明的多种实施方式。因此,以下具体实施方式和附图仅是对本发明的技术方案的示例性说明,而不应当视为本发明的全部或者视为对本发明技术方案的限制或限定。相反,提供这些实施例的目的是为了使本领域的技术人员更透彻地理解本发明。下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的创新构思。

在本发明的一个实施例中,结合图表解析算法和用户反馈的数据可视化画法匹配装置,主要用于以自然语言为输入搜索结构化数据,从而为搜索到的数据集匹配最优的可视化画法。可视化画法匹配装置,包括样本库、基于机器学习模型的画法匹配单元、基于输入限制规则的画法匹配单元以及基于样本库匹配的画法匹配单元;

样本库中的每一个样本包括第一数据集描述表以及与所述第一数据集描述表相对应的画法描述表;所述第一数据集描述表以表的形式记载了第一数据集的表结构信息;所述画法描述表以表的形式记载了与第一数据集表结构相匹配的画法;

所述基于机器学习模型的画法匹配单元,使用样本库中的样本进行训练后,具有依据输入的第二数据集描述表匹配出与第二数据集表结构相匹配的画法的能力;所述机器学习模型可以为神经网络模型或协同过滤算法模型。

所述基于样本库匹配的画法匹配单元,根据输入的第二数据集描述表记载的表结构信息,将第二数据集的维度和指标描述信息与样本中第一数据集描述表中的维度和指标描述信息进行相似度对比,以筛选出与第二数据集表结构相似度最高的第一数据集,将所述相似度最高的第一数据集在所述样本中对应的画法作为第二数据集的匹配画法;

所述基于输入限制规则的画法匹配单元,根据输入的第二数据集描述表,结合各类图表的输入限制规则给出匹配画法。

样本库为预先建立。根据本发明的构思原理,所谓样本库,其中的每一个样本包括一组“输入数据”+“输出画法”,即在每一个样本中,为每一组“输入数据”配对有相应的结构数据可视化画法。每一组“输入数据”包括:数据集+用户ID+搜索语句。其中,数据集是指用户在搜索引擎中输入关键词串后,获得的结构化数据搜索结果。搜索语句为用户在搜索引擎中输入的关键词串,或者为来自外部学习素材的标题,例如自外部学习素材中图表的标题。用户ID这表明当前的数据集和搜索语句所对应的特定用户。在“输入数据”中,用户ID和搜索语句为非必须项,可以根据实际情况包括或不包括。最为一个要素最全的例子,一个样本为:“数据集+用户ID+搜索语句”+“输出画法”。输出的可视化画法包括以下一项或多项可配置宣项(同时也是画法反馈上报项):

(1)图表类型;

(2)X轴维度/指标、Y轴维度/指标;X轴维度/指标、Y轴维度/指标是折线图/柱状图/横条图等XY坐标系图表会用到的字段;

(3)每个指标所使用的标识,例如数字、柱子、折线、颜色深浅、形状大小等;

(4)图表颜色,或配色方案ID;

(5)数值格式,例如百分比、干分位等;

(6)各类图表的专有选项,例如表格是否显示总计、小计等;

(7)行维度、列维度;行维度、列维度是分组表/交叉表会用到的字段。

为了从技术手段上实现前述发明构思,在本发明所述的样本库中,每个样本中的“输入数据”所记载的各项信息以数据集描述表的形式保存在样本库中,而样本中的“输出画法”所记载的各项信息以画法描述表的形式保存在样本库中。为了更清楚地描述本发明,样本库中的数据集描述表被称为第一数据集描述表。与“数据集+用户ID+搜索语句”相对应,第一数据集描述表的结构包括以下信息中的一项或多项:

搜索语句、维度名称、维度类型、维度个数、指标名称、指标单位、指标个数、用户ID;其中,维度名称、维度类型、维度个数、指标名称、指标单位以及指标个数被称为数据集的维度和指标描述信息。

画法描述表的结构包括以下信息中的一项或多项,以描述匹配的画法:

图表类型、X轴指标、Y轴指标、指标标识、颜色、行维度、列维度、数值格式。

在一个实施中,可以目标行业或领域的研究报告(或用户提供的内部资料)等富含真实数据图表的非结构化文件作为外部学习素材,使用图表解析方法构建、积累大量的样本并保存在样本库中。为了提高样本积累速度,可以通过RPA(软件流程自动化)来对大量外部学习素材进行图表解析,快速、大量地累积样本,完成样本库的冷启动。为此,可视化画法匹配装置还包括非结构化数据转化和图标解析单元。非结构化数据转化和图标解析单元先将非结构化数据转化为结构化数据,即转化为数据集;然后根据数据集的维度和指标描述信息,形成第一数据集描述表,由第一数据集描述表和与第一数据集表结构相匹配的画法的画法描述表组成样本保存在样本库中。非结构化数据转化和图标解析单元先对非结构化数据进行图表解析,获得结构化数据,即获得数据集;然后根据数据集的维度和指标描述信息,形成第一数据集描述表,由第一数据集描述表和与第一数据集表结构相匹配的画法组成样本保存在样本库中。非结构化数据转化和图标解析单元通过RPA对作为外部学习素材的非结构化数据进行图表解析获得结构化数据,并根据数据集的维度和指标描述信息形成第一数据集描述表,从而持续、快速地累积样本,完成样本库的冷启动。

本发明中,基于机器学习模型的画法匹配单元、基于输入限制规则的画法匹配单元以及基于样本库匹配的画法匹配单元是三个独立的画法匹配单元。在本发明的一些实施例中,前述三个画法匹配单元并可并行使用,或者选择其中的一个或两个法匹配单元使用。

基于机器学习模型的画法匹配单元包括基于人工智能的机器学习模型。例如神经网络、协同过滤等现有的人工智能算法模型。以样本库中的样本为训练素材,通过对机器学习模型进行训练,使得机器学习模型具有画法决策能力,当向该机器学习模型输入数据集描述表后,可以以画法描述表的形式输出与输入数据相匹配的画法。

下面以一个例子来分别表述三个独立的画法匹配单元的画法匹配处理过程。

首先,用户在搜索系统中搜索某个句子,得到搜索结果即数据集。数据集本质是一个一维表。作为一个示例,如下表1所示,搜索获得的数据集是2016~2018年贵州茅台、五粮液的存货周转率。

表1

在表1中,包括两个维度和一个指标。两个维度,分别是文本类维度“公司名称”、日期类维度“报告日期”。“公司名称”具有“贵州茅台”和“五粮液”两个维度值,“报告日期”具有“2016、2017以及2018”三个维度值。一个指标为“存货周转率”,“存货周转率”包括四个指标值。

将表1所示的数据集连同用户在系统中的身份标识ID、以及其用户输入的搜索语句转化为第二数据集描述表后,并行输入三个独立的画法匹配单元。第二数据集描述表的结构与样本库中各样本的第一数据集描述表的结构相同,在此不再赘述。

一、基于机器学习模型的画法匹配单元的处理过程

基于机器学习模型的画法匹配单元根据输入的数据集等信息,经识别后输出一种画法。同样,为了从技术手段上实现前述发明构思,在本发明中,将表1所示的数据集连同用户在系统中的身份标识ID、以及其用户输入的搜索语句,以第二数据集描述表的形式提供给基于样本库匹配的画法匹配单元。

二、基于样本库匹配的画法匹配单元的处理过程

基于样本库匹配的画法匹配单元,从维度个数、维度类型、维度名称、每个维度名称下的维度值个数、指标个数以及指标名称等六个方面来,将本次输入数据中的数据集与样本库中各样本的数据集进行比较,将相似度最高的数据集对应的输入数据的画法作为建议的画法。基于样本库匹配的画法匹配单元输出的画法队列,被称之为匹配的画法。

具体地,所述基于样本库匹配的画法匹配单元包括获取子单元、第一相似度比较子单元、第二相似度比较子单元、第三相似度比较子单元、第四相似度比较子单元、相同画法统计子单元、用户匹配子单元;

获取子单元,获取第二数据集描述表记载的表结构信息,即获取第二数据集描述表;

第一相似度比较子单元,用于在样本库中筛选出维度个数、维度类型以及指标个数均与第二数据集描述表所记载的对应信息相一致的第一数据集描述表所属的样本;若在各样本中没有筛选出与第二数据集描述表所记载的对应信息相一致的第一数据集描述表,则不适用于基于样本库匹配的画法推荐单元,终止在该单元中的任务。结合表1所示的例子,先在样本库中筛选出具有两个维度、两个维度类型(文本+日期)以及一个指标的数据集所对应的样本。

第二相似度比较子单元,用于从第一相似度比较单元筛选出的样本中,进一步筛选出每个维度名称下的维度值个数与第二数据集描述表所记载的对应信息相一致的第一数据集描述表所属的样本;若从第一相似度比较单元筛选出的样本中没有与第二数据集描述表所记载的对应信息相一致的第一数据集描述表,则取与第二数据集维度值个数最相近的第一数据集描述表所属的样本作为第二相似度比较子单元筛选出的样本。结合表1所示的例子,在本步骤中,进一步筛选出一个维度具有两个维度值,另一个维度具有三个维度值的数据集对应的样本。若没有完全一致数据集,则取维度值个数最相近的数据集对应的样本。

第三相似度比较子单元,用于从第二相似度比较单元筛选出的样本中,进一步筛选出指标名称与第二数据集描述表所记载的对应信息相一致的第一数据集描述表所属的样本;若在各样本中没有筛选出指标名称与第二数据集描述表所记载的对应信息相一致的第一数据集描述表,则取指标单位一致且指标名称相似度最高的第一数据集描述表所属的样本;

第四相似度比较子单元,用于从第三相似度比较单元筛选出的样本中,进一步筛选出维度名称与第二数据集描述表所记载的对应信息相一致的第一数据集描述表所属的样本;如果维度名称没有完全一致的,则取维度名称与第二数据集描述表所记载的对应信息相似度最高的第一数据集描述表所属的样本作为第四相似度比较子单元筛选出的样本;将筛选出的样本中所记载的画法作为第二数据集的匹配画法。至此,如有样本中的数据集符合只有“公司名称”、“报告日期”、“存货周转率”三列,且“公司名称”有两个值,“报告日期”有三个值的数据集,则该样本中的数据集与用户搜索结果数据集的相似度是100%,则将该样本对应的画法作为匹配的画法。如果个样本没有100%一致的数据集,否则按上述步骤筛选出的相似度最高的数据集对应的样本所对应的画法作为匹配的画法。由于样本库里,一种输入数据集对应输出画法可能不只一种,接下来由相同画法统计子单元对多种画法做排序。

相同画法统计子单元,如果第四相似度比较子单元筛选出的样本不止一个,即第四相似度比较子单元匹配的画法不止一个,则统计相同画法的数量,将数量最大的画法作为为最优匹配画法。

接下来,可以再尝试从这些样本中找出是否有当前用户ID曾经使用过的样本,如有当前用户ID曾经使用过的样本,再将当前用户ID曾经使用过的样本中最新使用的一个样本,放置在画法队列第一位。因此,用户匹配子单元,如果在第四相似度比较子单元筛选出的样本存在当前用户ID曾经使用过的样本,则将当前用户ID最近一次使用过的样本中的画法作为优选匹配画法。曾经使用过的样本是由当前用户在过去使用本系统过程中,上报上来的样本。

三、基于输入限制规则的画法匹配单元的处理过程

将作为搜索结果的数据集(包括,或者不包括,身份标识ID、搜索语句)转化为第二数据集描述表,输入至基于输入限制规则的画法匹配单元。基于输入限制规则的画法匹配单元的处理过程如背景技术所述。不同之处在于,在本发明中,在所述基于输入限制规则的画法匹配单元中,将以下一个或多个参数设置为用户可配置模式:

柱状图/横条图-X轴最多容纳的维度值个数;

柱状图/横条图/折线图/面积图-图例最多容纳的维度值或指标个数;

堆积图-不同指标是否可以堆积;

饼图-最多容纳的维度值个数;

单值图-是否优先展示时间维度。

作为一种优选方案,数据可视化画法匹配装置还包括优先级确定单元,优先级确定单元对于画法匹配单元、基于输入限制规则的画法匹配单元以及基于样本库匹配的画法匹配单元各自匹配的画法,排重后按照预先设定的优先级确定最终的匹配画法提供给前端。在优先级确定单元预先设定的优先级为以下方式之一:

基于机器学习模型的画法匹配单元匹配的画法>基于样本库匹配的画法匹配单元匹配的画法>基于输入限制规则的画法匹配单元匹配的画法;

基于样本库匹配的画法匹配单元匹配的画法>基于机器学习模型的画法匹配单元匹配的画法>基于输入限制规则的画法匹配单元匹配的画法。

一般来说,如果机器学习模型训练时间不长,则可以优选基于样本库匹配的画法匹配单元匹配的画法。经过长时间训练后,可以优选基于机器学习模型的画法匹配单元匹配的画法。

作为一种优选方案,数据可视化画法匹配装置还包括新样本导入单元,如果用户在前端对匹配的画法进行了修改,则新样本导入单元将修改后的画法和第一数据集配对后形成新的样本添加至样本库。例如,用户在前端可能对匹配的画法进行修改,在其进行图表保存或导出等有积极肯定意味的行为发生时,将当前样本(数据+画法)通过反馈接口,传至样本库,从而为样本库提供反馈,一方面咋画法匹配过程中,可以考虑当前用户的使用偏好,另一方面,丰富样本库,强化机器学习模型的学习。

本发明还提出一种结合图表解析算法和用户反馈的数据可视化画法匹配方法。该方法包括样本库、基于机器学习模型的画法匹配流程、基于输入限制规则的画法匹配流程以及基于样本库匹配的画法匹配流程;

样本库中的每一个样本包括第一数据集描述表以及与所述第一数据集描述表相对应的画法描述表;

所述第一数据集描述表以表的形式记载了第一数据集的表结构信息;所述画法描述表以表的形式记载了与第一数据集表结构相匹配的画法;

所述基于机器学习模型的画法匹配流程,包括使用样本库中的样本进行训练后具有依据输入的第二数据集描述表匹配出与第二数据集表结构相匹配的画法的能力;所述机器学习模型可以为神经网络模型或协同过滤算法模型;

所述基于样本库匹配的画法匹配流程,根据输入的第二数据集描述表记载的表结构信息,将第二数据集的维度和指标描述信息与样本中第一数据集描述表中的维度和指标描述信息进行相似度对比,以筛选出与第二数据集表结构相似度最高的第一数据集,将所述相似度最高的第一数据集在所述样本中对应的画法作为第二数据集的匹配画法;

所述基于输入限制规则的画法匹配流程,根据输入的第二数据集描述表,结合各类图表的输入限制规则给出匹配画法;

所述第一数据集描述表和第二数据集描述表具有相同的结构,包括以下信息中的一项或多项:

搜索语句、维度名称、维度类型、维度个数、指标名称、指标单位、指标个数、用户ID;其中,维度名称、维度类型、维度个数、指标名称、指标单位以及指标个数被称为数据集的维度和指标描述信息;

所述画法描述表包括包括以下信息中的一项或多项,以便描述具体的匹配画法:

图表类型、X轴指标、Y轴指标、指标标识、颜色、行维度、列维度、数值格式;

在基于机器学习模型的画法匹配流程、基于输入限制规则的画法匹配流程以及基于样本库匹配的画法匹配流程各自匹配的画法中选择一种画法作为最总的匹配画法提供给前端。

下面,仍然以表1为例,重点说明所述基于样本库匹配的画法匹配流程。

步骤S100,获取第二数据集描述表记载的表结构信息后,在样本库中筛选出维度个数、维度类型以及指标个数均与第二数据集描述表所记载的对应信息相一致的第一数据集描述表所属的样本;若在各样本中没有筛选出与第二数据集描述表所记载的对应信息相一致的第一数据集描述表,则基于样本库匹配的画法匹配单元终止当前任务。结合表1所示的例子,先在样本库中筛选出具有两个维度、两个维度类型(文本+日期)以及一个指标的数据集所对应的样本。

步骤S200,从步骤S100筛选出的样本中,进一步筛选出每个维度名称下的维度值个数与第二数据集描述表所记载的对应信息相一致的第一数据集描述表所属的样本;若从步骤S100筛选出的样本中没有与第二数据集描述表所记载的对应信息相一致的第一数据集描述表,则取与第二数据集维度值个数最相近的第一数据集描述表所属的样本作为步骤S200筛选出的样本。结合表1所示的例子,在本步骤中,进一步筛选出一个维度具有两个维度值,另一个维度具有三个维度值的数据集对应的样本。若没有完全一致数据集,则取维度值个数最相近的数据集对应的样本。

步骤S300,从步骤S200筛选出的样本中,进一步筛选出指标名称与第二数据集描述表所记载的对应信息相一致的第一数据集描述表所属的样本;若在各样本中没有筛选出指标名称与第二数据集描述表所记载的对应信息相一致的第一数据集描述表,则取指标单位一致且指标名称相似度最高的第一数据集描述表所属的样本;。

步骤S400,从步骤S300筛选出的样本中,进一步筛选出维度名称与第二数据集描述表所记载的对应信息相一致的第一数据集描述表所属的样本;如果维度名称没有完全一致的,则取维度名称与第二数据集描述表所记载的对应信息相似度最高的第一数据集描述表所属的样本作为步骤400筛选出的样本;将筛选出的样本中所记载的画法作为第二数据集的匹配画法。至此,如有样本中的数据集符合只有“公司名称”、“报告日期”、“存货周转率”三列,且“公司名称”有两个值,“报告日期”有三个值的数据集,则该样本中的数据集与用户搜索结果数据集的相似度是100%,则将该样本对应的画法作为匹配的画法。如果个样本没有100%一致的数据集,否则按上述步骤筛选出的相似度最高的数据集对应的样本所对应的画法作为匹配的画法。由于样本库里,一种输入数据集对应输出画法可能不只一种,接下来要对多种画法做排序。

步骤S500,如果步骤S400筛选出的样本不止一个,即步骤S400匹配的画法不止一个,则统计相同画法的数量,将数量最大的画法作为为最优匹配画法。即按排重统计筛选出的样本中各画法的次数,按次数由多到少将画法排序。

步骤S600,再尝试从这些样本中找出是否有当前用户ID曾经使用过的样本,如有当前用户ID曾经使用过的样本,再将当前用户ID曾经使用过的样本中最新使用的一个样本,放置在画法队列第一位。即如果在步骤S400筛选出的样本存在当前用户ID曾经使用过的样本,则将当前用户ID最近一次使用过的样本中的画法作为优选匹配画法。

在所述基于输入限制规则的画法匹配流程中,在背景技术介绍的基于输入限制规则的可视化画法匹配方法的基础上,把影响每种图表类型显示是否直观的参数开放出来,设定为用户可配置模式,供用户自定义,以满足不同客户的不同需求。用户可自定义配置的参数包括:

(1)柱状图/横条图-X轴最多容纳的维度值个数,系统初始默认为20个;

(2)柱状图/横条图/折线图/面积图-图例最多容纳的维度值或指标个数,系统初始默认为5个;

(3)堆积图-不同指标是否可以堆积,统初始默认为否;

(4)饼图-最多容纳的维度值个数,统初始默认为为5个;

(5)单值图-是否优先展示时间维度,统初始默认为是;

可配置项支持拓展。

对于画法匹配流程、基于输入限制规则的画法匹配流程以及基于样本库匹配的画法匹配流程各自匹配的画法,排重后按照预先设定的优先级确定最终的匹配画法提供给前端。所述照预先设定的优先级为以下方式之一:

基于机器学习模型的画法匹配流程匹配的画法>基于样本库匹配的画法匹配流程匹配的画法>基于输入限制规则的画法匹配流程匹配的画法;

基于样本库匹配的画法匹配流程匹配的画法>基于机器学习模型的画法匹配流程匹配的画法>基于输入限制规则的画法匹配流程匹配的画法。

画法反馈上报。如果用户在前端对匹配的画法进行了修改,则将修改后的画法和第一数据集配对后形成新的样本添加至样本库。例如,用户在前端可能对匹配的画法进行修改,在其进行图表保存或导出等有积极肯定意味的行为发生时,将当前样本(数据+画法)通过反馈接口,传至样本库。

样本库&画法模型自提升。除用户反馈外,RPA可持续为样本库引入外部真实图表通过算法解析出来的结构化数据,样本库不断丰富,即画法模型的训练素材在不断丰富,形成完整的自提升闭环。

下面,以一个实例具体说明本发明。

例如,有一家券商研究所,研究员的日常主要工作是撰写上市公司、行业的研究报告。可以使用本发明所述技术,一步帮其完成查数据+画图,研究员只需专注于后续的分析工作。

步骤一,首先,生成业务词典。生成业务词典是识别图表中的维度、指标的前置条件,已经存在相关现有技术,非本发明所要保护的内容,不再赘述。接下来,根据券商研究所提供的历史积累的研究报告(大多是PDF格式),数量越多越好。将这些研究报告放在一个路径下,在RPA解析工具中新建一个任务,输入与路径建立连接,输出路径连接到某个数据库(即样本库),设置该任务的执行周期为增量实时。开始执行图表解析任务,对PDF文件逐个进行图表非结构化转结构化的解析。非结构化数据即不方便用数据库二维逻辑表来表现的数据,包括文本、图形、图像、音频、视频等。转结构化后,即找到文件中的数据图表,并将其解析为一个个字段及对应的字段值。将结构化数据的结构定义为如表2所示的数据集描述表,并为之匹配如表3画法描述表所记载的画法。

表2

表3

在样本库中,假设将结构化后的数据转化为数据集描述表后如表4所示:

表4

在样本库中,与表4对应的画法匹配表如表5所示,

表5

步骤二,使用算法训练平台,机器学习模型进行训练连接前一步的样本库作为训练样本库,自动进行训练任务,获得基于机器学习模型的画法匹配单元。

步骤三,完成以上准备工作后,用户就使用可视化画法匹配系统,完成其工作目标。

用户在搜索引擎查询入口输入搜索语句,如“白酒行业净利润2019Q1 TOP10”,得到如表6所示的搜索结果数据集。

表6

可得到输入数据:{query=‘白酒行业净利润2019Q1 TOP10’、用户ID=12345678、时间维度值个数=1、普通维度值个数=10、指标1=‘净利润’}

将其传输并行传输到以下三个画法匹配流程中:

第一,基于机器学习模型的画法匹配流程,输出1种画法,表示如下,

{图表类型=‘条形图’,X轴={名称=‘净利润’,标识=‘柱’,色值=‘xxxxxx’},Y轴=‘公司简称’}

第二,基于样本库匹配的画法匹配流程,综合维度/指标名称、维度/指标类型、维度值个数、指标个数、语句相似度,从样本库中匹配到最相近的一种第一数据集,其输入数据表示如下:

{query=‘2018年白酒行业净利润排名’、时间维度值个数=1、普通维度值个数=10、指标1=‘净利润’}

该输入数据对应保存了两种历史输出画法,表示如下:

画法1:{图表类型=‘条形图’,X轴={名称=‘净利润’,标识=‘柱’,色值=‘xxxxxx’},Y轴=‘公司简称’}(上报了83次,没有用户ID为xxxxxxxx的用户的记录)

画法2:{图表类型=‘明细表’,数据={名称=‘公司简称’,‘报告期’,‘三级行业名称’,‘净利润’}(上报了14次,没有用户ID为xxxxxxxx的用户的记录)

第三,基于输入限制规则的画法匹配流程,输出3种可行画法:

画法1:{图表类型=‘条形图’,X轴={名称=‘净利润’,标识=‘柱’,色值=‘xxxxxx’},Y轴=‘公司简称’}

画法2:{图表类型=‘明细表’,数据={名称=‘公司简称’,‘报告期’,‘三级行业名称’,‘净利润’}

画法3:{图表类型=‘环形图’,角度=‘公司简称’,指标=‘净利润’}

步骤四,上述三条匹配流程给出6种画法,进行排重后,实际是3种画法。按照基于样本库匹配的画法匹配流程匹配的画法>基于机器学习模型的画法匹配流程匹配的画法>基于输入限制规则的画法匹配流程匹配的画法的优先级进行排序后,得到最终输出给前端的画法如下:

画法1:{图表类型=‘条形图’,X轴={名称=‘净利润’,标识=‘柱’,色值=‘xxxxxx’},Y轴=‘公司简称’}

画法2:{图表类型=‘环形图’,角度=‘公司简称’,指标=‘净利润’}

画法3:{图表类型=‘明细表’,数据={名称=‘公司简称’,‘报告期’,‘三级行业名称’,‘净利润’}

步骤五,假设用户认为当前横条图的画法足够直观,希望导出图片用到正在撰写的研究报告中。但是由于该券商的研报格式规范要求,图表主题色需用橙色,用户此时会进入编辑器页面,将指标“净利润”的色值改为橙色,并保存。

保存时,将当前样本(数据+画法)通过反馈接口,传至样本库,传输内容如下:

输入{query=‘白酒行业净利润2019Q1 TOP10’、用户ID=12345678、时间维度值个数=1、普通维度值个数=10、指标1=‘净利润’}

输出{图表类型=‘条形图’,X轴={名称=‘净利润’,标识=‘柱’,色值=‘EF8A46’},Y轴=‘公司简称’}

步骤六,以后用户再次搜索,匹配画法流程中从样本库匹配到如下输入时,

{query=‘白酒行业净利润2019Q1 TOP10’、时间维度值个数=1、普通维度值个数=10、指标1=‘净利润’}

对应的N种画法输出中,由于同一用户最近一次上报的画法优先原则,会将上次修改指标颜色为橙色的画法作为排在第一位的画法,展现给用户。用户如果需要导出图片用在研报中,就不再需要修改颜色,体现了画法匹配的智能化。

除了用户使用过程中反馈的画法在丰富样本库之外,也持续将新的研报放入步骤一种RPA解析任务的输入路径中,这样样本库在不断积累真实正向的数据,画法模型的准确率会越来越高,最终将来自画法模型匹配画法的优先级调至第一位,带来智能且性能更优的体验。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

应当理解,为了精简本发明并帮助本领域的技术人员理解本发明的各个方面,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时在单个实施例中进行描述,或者参照单个图进行描述。但是,不应将本发明解释成示例性实施例中包括的特征均为本专利权利要求的必要技术特征。

本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

应当理解,可以对本发明的一个实施例的系统中包括的装置、模块、单元、组件等进行自适应性地改变以把它们设置在与该实施例不同的设备或系统中。可以把实施例的系统包括的不同装置、模块、单元或组件组合成一个装置、模块、单元或组件,也可以把它们分成多个子装置、子模块、子单元或子组件。

本发明的实施例中的装置、模块、单元或组件可以以硬件方式实现,也可以以一个或者多个处理器上运行的软件方式实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的计算机程序产品或计算机可读介质上。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号