首页> 中国专利> 基于初始数据可视化确定替代性数据可视化的方法和系统

基于初始数据可视化确定替代性数据可视化的方法和系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

根据本发明的一个实施例，一种计算机实现的方法包括基于数据集合的所选择的第一可视化的规范和包括有关数据集合的信息的参数生成数据集合的替代性可视化。

著录项

公开/公告号CN103678457A

专利类型发明专利
公开/公告日2014-03-26

原文格式PDF
申请/专利权人国际商业机器公司;
展开▼

申请/专利号CN201310412238.0
发明设计人 S.D.吉布森;D.J.罗普;G.J.威尔斯;
展开▼

申请日2013-09-11
分类号G06F17/30(20060101);
代理机构11105 北京市柳沈律师事务所;
代理人黄小临
地址美国纽约阿芒克
入库时间 2023-12-17 01:00:24

法律信息

法律状态公告日

法律状态信息

法律状态
2017-05-24

授权

授权
2014-04-23

实质审查的生效 IPC(主分类):G06F17/30 申请日:20130911

实质审查的生效
2014-03-26

公开

公开

说明书

技术领域

本发明的实施例涉及数据可视化，更具体地说，涉及基于选择的初始数据可视化的规范确定替代性(alternative)数据可视化。

背景技术

选择合适的方式来可视化数据涉及结合数据知识和数据可视化技术知识。然而，专注于特定领域的企业用户通常缺乏数据可视化技术的专业知识。研究已经显示，在用户选择的数据视觉表示与其在可用的可视化列表中的位置之间的高度的相关性。换句话说，人们往往简单地选择最容易得到的可视化，而它可能不会导致数据的最佳可视化。

发明内容

根据本发明的一个实施例，一种计算机实现的方法包括基于数据集合的所选择的第一可视化的规范和包括有关该数据集合的信息的参数生成该数据集合的替代性可视化。本发明的实施例还包括一种用于以与上述本质相同的方式可视化数据的系统和计算机程序产品。

附图说明

一般情况下，各附图中类似的参考标号用来指代类似的部件。

图1是本发明的实施例使用的示例性计算环境的示意图。

图2是示例根据本发明实施例的分析数据的基础可视化以生成数据的替代性可视化的方式的流程图。

图3是示例根据本发明实施例的图2中的流程图的视觉目标和统计关系发现的方式的流程图。

图4是示例根据本发明实施例的图2中的流程图的可视化推荐的方式的流程图。

图5是示例根据本发明实施例的图4中的流程图的规则执行的方式的流程图。

图6是示例性初始数据可视化的图。

图7A-7B示出了根据本发明实施例的为图6中的初始数据可视化推荐的示例性替代性可视化。

具体实施方式

可视化通常是指来自数据集合的数据的视觉表示。来自数据集合的变量通常映射到视觉表示的一组分量。分量的示例包括位置（例如，图的X、Y、 Z坐标）、美感（例如，颜色、大小、标记、形状等）和分面（faceting）（例如，图表的行、列、外部行（outer row），外部列（outer column）等）。在关系模型中，示例性数据集合可以包括其中每个记录（即，每行数据）都由一组列描述的数据表格，其中每一列是数据变量（也称为字段）。

本发明实施例基于用户选择的初始数据可视化为用户提供推荐的替代性数据可视化。本发明实施例分析用户的初始可视化、数据集合和元数据的规范。本实施例还为用户提供一组新的、描述数据额外的方面的候选可视化，或者提供更好的数据视觉表示。

例如，如果用户最初选择变量X和Y的散点图（scatterplot），并且在X 和Y之间存在高度的相关性，那么本发明实施例可以为用户提供显示叠加在原始散点图上的统计平滑结果的候选可视化。同样地，如果数据包含额外的类别的信息，那么候选可视化可以包括通过颜色、阴影或标记形状标识每个（X，Y）对的类别的散点图（带有图例）。这组候选可视化可以包括与原始的不同类型的可视化。例如，用户可能最初为分层数据选择条形图，得到显示分层结构的树形图。同样，最初选择条形图代表金融时间序列的用户可能会得到线图；最初选择簇状条形图（clustered bar chart）的用户可能会得到点图（dotplot）或平板化（paneled）条形图；最初选择数据包含美国各州名称的条形图可能会得到地图。替代性可视化的具体推荐依赖于情境（例如，业务领域、数据和定制规则）和用户的初始可视化。

用于本发明实施例的示例性环境在图1中示出。具体地说，该环境包括一个或多个服务器系统10和一个或多个客户端或终端用户系统14。服务器系统10和客户端系统14可以彼此远离，并通过网络12进行通信。该网络可以通过任何数量的任何合适的通信媒介（例如，广域网（WAN）、局域网（LAN）、互联网、内联网等）来实现。替代性地，服务器系统10和客户端系统14可以相对于彼此是本地的，并通过任何合适的本地通信媒介（例如，局域网（LAN）、硬连线、无线链路、内联网等）进行通信。

客户端系统14使用户能够针对各种应用与服务器系统10进行交互。服务器系统包括基于用户选择的初始数据可视化提供替代性数据可视化的可视化模块16。可视化模块通过客户端系统14从用户那里接收初始可视化选择。该可视化模块进一步接收可以存储在数据库系统18中的数据集合和其他输入（例如，元数据和规则集合）或其他源。该数据库系统可以通过任何常规的或其他的数据库或存储单元实现，可以相对于服务器系统10和客户端系统 14是本地的，或远离这两者，并可以通过任何合适的通信媒介（例如，局域网（LAN）、广域网（WAN）、互联网、硬连线、无线链路、内联网等）进行通信。

客户端系统14可以展示图形用户（例如，GUI等）或其他界面（例如，命令行提示、菜单屏幕等），以从用户请求期望数据的可视化的初始选择以及有关所期望数据的其他信息和分析，并可以显示初始可视化和一组推荐的替代性可视化，以及包括其他生成的图表和任何其他类型的分析结果的报告。

服务器系统10和客户端系统14可以通过优选配备显示器或监视器、基础组件（base）（例如，包括处理器、存储器和/或内部或外部通信设备（例如，调制解调器，网卡等））、可选的输入设备（例如，键盘、鼠标或其他输入设备）和任何可商业获得和/或定制的软件（例如，服务器/通信软件、可视化模块、浏览器/接口软件等等）的任何常规的或其他的计算机系统实现。另外，可视化模块16可以包括执行下面描述的各种功能的一个或多个模块或单元，并可以通过任何数量的软件和/或硬件模块或单元的任意组合实现。

可替换地，一个或多个客户端系统14可以在作为独立单元工作时分析数据。在独立工作模式中，客户端系统存储数据或可以访问数据，并包括分析数据并基于用户选择的初始数据可视化提供推荐的替代性数据可视化的可视化模块16。

图2示出了根据本发明实施例的根据初始数据可视化确定替代性数据可视化的方式（例如，通过可视化模块16和服务器系统10和/或客户端系统14）。具体地说，可视化模块16接收作为输入的初始可视化规范210（描述用户选择的可视化并识别源数据集合）、数据集合230、业务元数据220和一组用于确定替代性可视化的启发式规则260。可视化模块以多级操作，包括视觉目标和统计关系发现级240和可视化推荐级270。发现级240分析规范210、数据集合230和业务元数据220，以辨识与有关数据可视化的用户目标相关的信息，并寻找数据集合中多个变量之间的统计关系。结果以丰富的元数据250 的形式传递给可视化推荐级270。可视化推荐级270接收丰富的元数据250、规范210和启发式规则260，并应用启发式规则生成改进的可视化的替代性可视化候选290。可视化推荐级的输出是一组替代性可视化候选290。每一个最终的可视化候选都与陈述候选理由的说明相关联。

图3示出了根据本发明实施例的发现级240编译信息用于可视化推荐级 270的方式（例如，通过可视化模块16和服务器系统10和/或客户端系统14）。具体地说，可视化分析310检查初始可视化规范210的语义结构以发现有关数据可视化的用户的目标以及数据到可视化分量的现有映射。规范对初始可视化进行了充分描述，包括诸如变量位置、变量美感表示（如颜色、大小、形状或标记）、元素（如条形、线或点）、分面和/或预先计算的统计值的信息。这些信息反映了用户的意图。例如，被选择用位置表示的字段可能是对用户来说非常重要的字段，使用条形元素可能表示对总结而不是趋势的偏好。

另外，可视化可以看作是数据统计模型。例如，图表的Y轴变量通常被假定为依赖于X轴变量。前者可以标记为“目标”变量，而后者为“预测值” 变量，用于下面描述的多变量建模。用来对数据进行分段的变量（如用来平板化图表或为图表的点或线上色的变量）表示条件关系，其中Y变量依赖于 X变量，而X变量不同地依赖于条件（conditioning）变量的值。

元数据分析320收集业务级别元数据220并对元数据进行分析，以辨识情景。业务元数据220可以例如将变量识别为货币类型，并进一步将该变量分类为开支字段或收入字段。收入字段和支出字段可以分别被指定为目标和预测值。

统计分析330计算各个变量的统计值，并发现数据集合的变量之间的统计关系。可以连同变量对的关联度量一起产生多变量模型。最初，单变量分析331独立计算每个变量的统计描述数据。单变量分析包括标准统计度量，如平均值、标准偏差、计数、缺失值计数、偏斜、峰度、顺序统计值（中位数、四分位数等）和特殊指示符，特殊指示符包括在变量被确定为标识符时被标记为真的标志（flag）。这是当变量具有唯一字符串值或整数值、其中每个数据行都包括唯一值时的情形。这些变量未映射到除文本分量之外的其他的可视化分量。

另外，创建有限大小的、适合用于创建统计图表的数据概要。对于分类数据，此概要包括变量的独特类别的频率表格，同时通过对于其频率不落入固定数量的前几位（例如，前100）的类别将所有的最低频率项聚合成单个 “其他”类别来确保最多产生固定数量的类别（例如，最大100个类别）。

对于数值数据，生成同样的频率表格，除了使用分箱统计（statistical binning）创建多个值的范围的频率。例如，可以形成可变大小的分箱（bin）（利用可变分箱直方图算法或任何其他合适的方法）为变量生成固定数量的分箱（例如，分箱的最大数量为100）。

可视化分析310（规范分析）、元数据分析320和单独变量统计331的结果被用来选择用于双变量统计分析332的变量对，以及用来识别作为多变量预测模型的目标和预测值的变量。双变量分析确定变量对之间关系的强度。对于多变量预测值建模333，与其他变量有强关联的变量被给予优先级。多变量预测值建模确定两个以上变量之间的关系。得到的多变量预测值模型包括一组具有已知的统计关系、可用来生成候选可视化的变量。

双变量分析332对于每个所选的变量产生关系强度的度量和其统计似然性的度量。生成有限大小的交叉制表表格（cross-tabulation table），其定义所选每组成对值的频率。此交叉制表表格定义变量对的联合分布。对该表格进行分析，以提供对关联的度量，包括：稳健相关性度量，确定关系真实的统计概率；以及关系的强度，作为所述方差的改善而度量。计算得到的度量被保存供以后使用。交叉制表表格可用于创建双变量可视化。

使用提供优于计算变量之间的关系的强度的传统统计方法的多个优点的技术对统计关系的强度进行评估。它提供下述优点：它允许容易地对分类和连续变量之间的关系进行比较，还提供实施优势，即一旦执行交叉制表，得到的分析就不依赖于数据规模，因此对给定数量的变量具有固定的计算时间。该算法的细节在下面描述。

对于大量的变量，得到的变量对的数量可能变得极大。因此，可以将分析限制于生成固定数量的双变量可视化，基于可视化分析310（规范分析）、元数据分析320和单独变量统计331选择那些具有最高关系强度、具有统计学上的重要意义的变量以及那些被标识为用户感兴趣的变量。

生成交叉制表表格的更详细的描述如下。如前所述，数据集合中的每个变量，无论是数值还是分类，都可以具有计算出的有限大小的频率表示。这导致为每个变量定义最多给定数量的分箱（数值的或分类的）。因此，变量对将定义具有有限数量的单元格（cell）的表格（例如，假设每个变量有有限的 100个类别，这将导致一对变量最多10,000个单元格）。该算法对全部数据进行迭代，并且对每一对变量，计算由第一变量（变量1）的分箱和第二变量（变量2）的分箱交叉定义的单元格。然后，该单元格的频率增大。对于少于受限类别（例如，100个类别）的数量的数据，交叉制表表格将是真实双变量分布的完美表示。

为了效率，可以生成交叉制表，使得不存储零值，只记录非零组合。

当数据多种多样时，变量对之间的交叉制表变为一种近似。对于数值数据选择分箱算法会极大地影响该项技术的使用。在一个示例性实施例中，使用可变宽度的分箱，使得边际分箱频率更加均匀，因此在高度不均匀数据的情形中低于分析来说比固定宽度的分箱更有用。

变量元数据（来自可视化分析310和/或元数据分析320）可以用来指示哪些变量用于Y维度，哪些用于X维度，最好，目标变量在Y维度上，预测值在X维度上。

为了计算稳健相关性度量，使用用于双向表格的标准方差分析（ANOVA）技术分析交叉制表表格。卡方(chi-square)度量用来计算关系真实的统计概率。评估关系强度作为所述方差的比例（标准ANOVA术语中的分数SSE/SSTO 的平方根）。

数据的稳健相关性度量使用标准统计卡方独立性测试来计算。它产生多个度量，包括：统计显著性和计数方差预测（通过将SSE（使用边际频率预测计数时的平方误差项之和）除以SSTO（假设所有单元格都具有相等的频率时的平方误差项之和）来度量）。

多变量分析333寻找两个或更多变量之间的统计关系。在一个实施例中，使用“随机森林”标准统计技术对目标变量对预测值变量的依赖性进行建模。该项技术在即使变量数量太大以至于无法考虑所有可能的组合时仍然有用。本方法涉及的该技术如下：

1.对每一个目标变量Y，构建随机森林模型，其使用其他变量的子集预测该变量。

a.使用变量元数据，以确保只有具有“未知”或“预测”用途的变量被用来预测变量。

b.如果存在大量这样的变量（足以使得拟合模型时间过长），则使用在双变量关联过程中计算得到的关联数据，选择与目标变量具有最强关系的变量，以及基于初始可视化和元数据分析被识别为用户感兴趣的变量。

2.对于每个模型，记录（i）关系真实的统计概率；及（ii）关系强度，作为所述方差的改善而度量。

3.如果模型在统计学上是有效的，那么记录每个变量X对目标变量Y 的模型的贡献。这可以通过多种方法实现，诸如针对标准或典型随机森林模型描述的那些方法。在一个示例实现中，该模型使用从模型中排除的变量X 重新拟合，关系强度的差异用作贡献度量。对于每个变量，结果是与该变量在多变量意义上相关联、并根据其对多变量模型的贡献排序、评分的其他变量的列表。

发现级240的结果被编译为丰富的元数据250，包括使用统计信息（例如，与其他字段的最强关联关系）和对用户来说字段有多重要的度量（例如，认为最初在y轴上使用的字段对用户来说非常重要）丰富的业务元数据和任何来自数据集合230之内的元数据。丰富的元数据250被提供给可视化推荐级270。

图4示出了根据本发明实施例的、可视化推荐级270生成新的候选可视化的方式（例如，通过可视化模块16和服务器系统10和/或客户端系统14）。具体地，规则执行410接收启发式规则260、初始可视化规范210和丰富的元数据250，并产生中间候选420。每个中间候选伴随有纯文本说明和一个或更多评分，可以通过所述一个或更多评分对候选进行排序。中间候选420不是可视化的实际呈现，而是可以应用启发式规则的可视化的规范。在处理过程中，这些规范被放置在池（pool）中，进一步提供输入给规则执行410。这些规则以专家系统方式执行，诸如专家系统的前向链或其他类型。例如，这些规则可以对于每一个新的中间候选执行，以生成进一步的中间候选，直到找到所有独特的候选或达到限制。过滤430从中间候选420中选择（例如，使用评分）一组最终的替代性可视化候选290。

图5示出了根据本发明实施例的规则执行410和过滤430生成中间和最终候选的方式。具体地，启发式规则应用540通过应用启发式规则260创建新的候选可视化。例如，如果目标确定为“显示收入趋势”，而在收入和商店标识符之间存在强关联，那么将线或区域元素添加到原始规范（如果还不存在），并且平滑函数可应用于线以使得趋势更清楚。规则260被设计用于评估丰富的元数据250和/或初始可视化规范210，并对可视化加以改进，或创建具有改进的新的可视化。规则可以包括预定义的规则、通用规则、由领域专家定义的规则（例如，金融规则），为特定数据集合定义的规则和/或由用户为特定分析定义的规则。系统的规则可以针对不同的目的进行调整，如基于新手所犯的常见错误创建改进的可视化，或朝向某个行业领域内更相关的表示移动。每个规则通常仅修改可视化的一个分量方面，如应用颜色表示字段，或相对于使用条形选择使用点来表示数据。

纯文本说明550为产生新的候选的每一个规则提供纯文本理由。这些说明在应用规则时生成和捕获。在处理结束时，这些语句组合成段落，并展示给用户。例如，当规则确定向图添加统计平滑器时，可以添加解释平滑的表示如何使得看到整体趋势更容易的语句。

评分560将分数分配给中间可视化候选420。可以使用任何合适的评分系统。评分系统可以使用行业特定规则。可以创建并分配代表不同的、想要的特性的若干不同的分数。示例包括代表数据的关联强度、复杂度/简单度以及数据的所表示的维度的平板化（paneling）或数量的分数。可以使用这些因素的加权组合，以生成整体分数，然后将其用于从可能的候选中选择信息最丰富的候选可视化。

关联强度可以基于由每个可视化分量展现的统计关系的强度、以及基于每个可视化分量对于给定类型的统计关系的适合性，进行评分。每个分量的数据适合性度量，都以数据的统计和元特性（meta characteristics）为基础（如，类别数量、偏斜和均匀性），提供给定分量对于变量有多适合的度量。例如，有五种情形的分类变量比起倾斜数值变量更适合用于颜色。具体地，候选可视化可以根据它们与下面表格1中作为示例给出的预测变量的优选使用顺序的符合性（conformance）进行排序。

表格1：预测变量的优选使用顺序

重要性类别数量度量级美感使用顺序

高高数值 X，颜色，大小高高集合 X，颜色高低数值 X，大小，分面-Y 高低集合 X，分面-X，分面-Y 低高数值颜色，大小低高集合颜色，X 低低数值分面-X，颜色低低集合分面-Y，颜色

可以基于在给定分量复杂度和分量组合的情况下用户多容易解释它们来对多变量候选可视化进行评分。例如，X位置分量比颜色分量更容易解释。此外，尽管一个分面分量相对好解释，但两个要难解释得多。在一个示例性实施例中，使用从控制实验中获得的线性统计模型对复杂度进行度量，其中模型中复杂度的预测值是呈现的图形元素的计数数目。然而，可以使用任何建模技术，只要它允许对任何多变量可视化描述进行评分。例如，可以基于经验、用户研究或其他技术预先构建模型。

在过滤430（图4）中使用的、考虑复杂度模型选择多变量可视化候选而并非只挑最好或最不复杂的可视化的示例性算法迭代执行下列步骤：

1.从潜在候选列表中挑出得分最高的模型。

2.对于每个其他模型，基于其与所选模型有多相似降低该模型的评分。在优选实现中，这通过如下步骤完成：

a.计算相似度S，为共有变量的数量除以两个候选中变量数量的平均值，为0和1之间的值。

b.其他模型的分数降低S的固定倍数（0.25）。

3.重复这个过程，直到所有剩余模型的分数低于零。

上面描述的算法确保选择一组有代表性的候选模型。这确保选择最佳候选，经历降低与已选候选相似的候选的有用性的“收益递减”策略。

每一个候选可视化规范都对从变量到可视化分量的映射进行描述。这用来使用合适的可视化系统直接构建可视化。元素选择和位置变量可用来定义基本的可视化类型，其中颜色、大小和形状变量用来修改（modify）该可视化。最后，分配给分面的变量用来平板化可视化。

用户界面控制用来基于这些分数值对候选可视化列表进行排序或过滤。例如，可以向用户展示前十名的列表，或其他合适数量的、具有最高或最佳排名的生成的图表的列表。然后用户可以从展示中选择一个或多个图表。用户可以以任何合适的方式限制图表生成的搜索空间和/或生成的图表的展示（例如，通过要求特定变量位于二维图表的X轴上），其中基于用户实施的限制对生成的图表进行排序，并展示给用户。

该过程的结果是各种基于最初提供的图形的替代性视觉表示。每一个候选都伴随有为图形和为什么某些方面相关提供解释的几个语句。

一个示例演示了根据本发明实施例的可视化推荐的方面。在该示例中，用户最初创建销售额相对于销售人员的简单条形图，如图6所示。该图表的示例性数据集合在下面的表格2中示出。

表格2：数据表格：

[50.0，30.0，0]，

[44.0，25.0，1]，

[57.0，35.0，2]，

[63.0，40.0，3]，

[38.0，35.0，4]，

[39.0，22.0，5]，

[74.0，46.0，6]，

[21.0，23.0，7]，

[25.0，8.0，8]，

[32.0，34.0，9]，

[32.0，16.0，10]，

[49.0，22.0，11]，

[51.0，41.0，12]，

[29.0，34.0，13]，

[26.0，19.0，14]，

[24.0，12.0，15]

表格中的第一列包含销售额价格，第二列包含销量数字，最后一列是销售人员索引（对应名字列表“鲍勃”、“南希”、“埃德”、“帕特”、“安”、“比尔”、“珍妮特”、“布拉德”、“玛丽”、“罗杰”、“梅利莎”、“杰克”、“博”、“凯特”、“蒂娜”、“乔纳”）。

该示例的启发式规则260在表格3中定义如下，包括触发时每个规则重要程度的权重。

表格3：启发式规则

发现级240将销量和销售额标识为数值变量，将销售人员索引标识为分类变量。在销售额和销量之间找到强统计相关性。

将启发式规则应用于初始可视化触发标记为[A]、[B]、[C]和[F]的规则。规则[D]不会触发，因为没有发现州ID，[E]不会触发，因为显示的数值数据之间没有关系。

作为示例，只使用前两个结果。根据表格3中的权重，这些是规则[A] 和[C]的结果。因此，创建两个中间可视化候选：

[N1]基础+[A]：排序的条形图，

[N2]基础+[C]：绘制在X轴上的销量（以不规则间隔的条形），其中[N1] 和[N2]标记新的可视化，基础+[规则标记]表示根据对应于规则标记的启发式规则修改的基础可视化。

启发式规则在这之中的每一个上重新运行。对于[N1]，规则[C]触发，但被舍弃，因为它会产生与[N2]相同的图表。规则[F]也触发，生成新的候选：

[N3]基础+[A]+[F]：排序的条形图，销量映射到条形宽度（“大小”）。

应用启发式规则到[N2]，规则[B]触发（fire），且规则[E]触发，得到两个新的候选：

[N4]：基础+[C]+[B]：彩色条形图，其中x轴是销量，

[N5]：基础+[C]+[E]：用点替换条形，以制作散点图。

应用启发式规则到[N3]、[N4]和[N5]，只产生一种新的可能性：

[N6]：基础+[C]+[B]+[E]：彩色散点图。

在此示例中，六个候选通过计算它们的权重进行评分。同样，只使用前两个，产生最终的可视化候选[N3]和[N6]，如图7A和7B分别所示（图7B 中用符号替换颜色）。候选[N3]是销售人员销量的排序条形图，条形宽度显示销量。规则[A]和[F]自动生成纯文本理由：“根据销售额值对人员进行排序，使得更容易看出最大和最小销售额值。因为销量是数值，所以将销量编码为大小。”候选[N6]是依据销量的销售额的散点图，依据销售人员上色。文本理由规则[C]、[B]、[E]自动生成：“将销量放置在X轴上显示出销量和销售额之间的强关联关系。因为两个轴都显示数值数据，所以选择点。因为销售人员是分类的，所以将销售人员编码为颜色。”这些最终的可视化候选连同原始图表一起展示给用户。

因此，本发明的实施例从多变量数据集合中自动生成数据的初始可视化的多个替代性可视化，并为用户提供子集（基于初始可视化集合的排序或评分）以考虑哪个导致提供改进的数据可视化，同时最小化在其他情况下用户尝试确定显示数据的最佳方式要求的时间和努力。

应该理解的是，上述以及附图中示出的实施例只代表实现基于初始可视化向用户提供一组推荐的数据集合可视化的实施例的许多方法中的少数几个方法。

推荐模块可以作为用于可视化、报告、分析等的独立的应用或应用附加组件（add-on）或应用组件运行。用户的初始可视化的规范可以是可视化应用的产物，或者它可以通过将用户命令翻译成可视化应用、或通过翻译由可视化应用创建的可视化的数据结构或其他规范来创建。

用户的初始可视化可以具有任何形式（例如，条形图、散点图等）。替代性或推荐的可视化可以具有任何形式（例如，条形图，散点图等），并且可以具有与用户的初始可视化相同的形式或不同的形式。

可视化规范可以具有适合描述可视化用于规则应用的任何格式。该格式可以允许可视化组件被视为是可添加或可替换的部件。元数据（包括丰富的元数据）可以并入可视化规范。可视化规范可以采用元数据的形式。

丰富的元数据可以包括任何类型的元数据，如与使用变量（例如，目标或预测值）相关的信息、统计信息（例如，单变量统计，包括多变量模型、表格、直方图等的统计关系）、领域信息（例如，“时间序列”、“银行业”、“电子商务”等）、存储类型（例如，整数、浮点数、字符串、日期等）、度量类型（例如，比率、序数、二进制等）。丰富的元数据可以从任何源收集，如预先存在的元数据、用户提供的信息以及通过视觉目标和统计关系发现确定的信息（例如，通过比较变量名称和正则表达式）。元数据可以用任何类型的值（例如，布尔值、字母、数值、字符、符号等）表示。

除了在用户的初始可视化中显示的数据之外，统计分析可以包括任何数据，例如，包含用户变量的表格的附加列和相关表格中的列。可以使用任何包括预先计算的统计值（例如，来自元数据）的统计度量（例如，标准相关性）和方法。统计值可以在具有或不具有任何类型的分箱（例如，可变或不变分箱大小、未分箱数据（unbinned data）、截断范围等）的情况下计算。可能产生任何类型的数据模型（例如，随机森林模型、神经网络、参数化模型等）。可以基于可视化分析和/或元数据分析选择模型（例如，标识为重要的变量可以以更大的组合建模，或通过额外或更详细的模型）。统计分析（例如，单个变量、变量对、多变量模型等）可以利用并行处理或分布式分析框架（构建于云计算、HADOOP或类似环境之上）。然而，该处理也可以通过在单个处理线程内运行分析或任何其他的处理系统实现。

可视化推荐可以按照任何过程以生成替代性可视化候选。每个规则可以生成一个或多个可视化候选。规则执行可以以任何方式发生，如一次通过（single pass）、迭代、专家系统等。对替代性可视化的解释可以采用任何格式，包括任何类型的文本、符号和图形。解释可以在任何时间生成（例如，与新的候选同时、在选择最终候选之后等）。可以使用任何类型的分数和评分系统。分数可以考虑任何用户输入和元数据。

最终的替代性可视化候选可以在任何时候（例如，在可视化推荐过程中、在展示给用户之前或之后等）呈现，并且可以通过可视化模块或其他模块或应用呈现。

本发明实施例的拓扑或环境可以包括任何数量的计算机或其他的处理系统（例如，客户端或最终用户系统、服务器系统等）和以任何期望的方式设置的数据库或其他存储库，其中本发明实施例可以应用于任何所期望类型的计算环境（例如，云计算、客户端-服务器、网络计算、大型计算机、独立系统等）。本发明实施例采用的计算机或其他处理系统可以通过任何数量的任何个人或其他类型的计算机或处理系统（例如，台式机、笔记本电脑、PDA、移动设备等）实现，可以包括任何商业可获得操作系统和任何商业可获得或定制软件（例如，浏览器软件、通信软件、服务器软件、可视化模块等）。这些系统可包括任何类型的监视器和输入设备（例如，键盘、鼠标、语音识别等）以输入和/或查看信息。

应该理解的是，本发明实施例的软件（例如，客户端系统和服务器系统中的可视化模块）可以以任何期望的计算机语言实现，并可以通过计算机领域中的一个普通的技术人员基于包含在本说明书中的功能描述和附图中示出的流程图开发。此外，这里对执行各种功能的软件的引用一般是指计算机系统或处理器在软件控制下执行这些功能。本发明实施例的计算机系统可以替代性地通过任何类型的硬件和/或其他处理电路实现。

计算机或其他处理系统的各种功能可以以任何方式分布在任何数量的软件和/或硬件模块或单元、处理或计算机系统和/或电路之中，其中计算机或处理系统可以彼此放置在本地或彼此远离放置，并通过任何合适的通信媒介（例如，LAN、WAN、内联网、互联网、硬连线、调制解调器连接、无线等）实现。例如，本发明实施例的功能可以以任何方式分布在各种最终用户/客户端和服务器系统和/或任何其他中间处理设备之中。可以以任何实现此处描述的功能的方式对以上描述并在流程图中示出软件和/或算法进行修改。此外，流程图或说明书中的功能可以以任何实现期望的操作的顺序执行。

本发明实施例的软件（例如，客户端系统和数据库系统的可视化模块）可以在可记录介质（例如，磁性或光学介质、磁光介质、软盘、CD-ROM、 DVD、存储设备等）上获得，以在独立系统或通过网络或其他通信媒介连接的系统上使用。

通信网络可以通过任何数量的任何类型的通信网络（例如，LAN、WAN、互联网、内联网、VPN等）实现。本发明实施例的计算机或其他的处理系统可以包括任何常规或其他的通信设备，以在网络上通过任何常规的或其他协议进行通信。计算机或其他的处理系统可以利用任何类型的连接（例如，有线、无线等）来访问网络。本地通信媒介可以通过任何合适的通信媒介（例如，局域网（LAN）、硬连线、无线链路、内联网等）实现。

该系统可以采用任何数量的任何常规的或其他的数据库、数据存储或存储结构（例如，文件、数据库、数据结构、数据或其他存储库等）来存储信息（例如，统计或其他数据、模型、可视化规范、可视化、规则等）。数据库系统可以通过任何数量的任何常规的或其他的数据库、数据存储或存储结构（例如，文件、数据库、数据结构、数据或其他存储库等）实现以存储信息（例如，统计或其他数据、模型、可视化规范、可视化、规则等）。这些系统可以被包括在服务器和/或客户端系统之中或耦合到服务器和/或客户端系统。数据库系统和/或存储结构可以远离计算机或其他处理系统，或相对于计算机或其他处理系统位于本地，并且可以存储任何希望的数据（例如，规则、模型、统计或其他数据、可视化规范、可视化等）。

可以利用本发明的实施例推荐代表任何信息的任何类型数据（例如，布尔值、字符、字母数字、符号等）的替代性可视化。并且，可以利用本发明实施例推荐来自任何类型的存储单元、系统或设备（例如，数据库、文件、存储设备、数据结构、处理设备、各种类型的固定或移动计算机或处理系统或设备等）的数据的替代性可视化。数据集合可以包括一个或多个数据集合，可以是任何大小，并包括任何类型的数据和元数据。

本发明实施例可以使用任何数量的任何类型的用户界面（例如，图形用户界面（GUI）、命令行、提示等）以获得或提供信息（例如，获取要执行的希望的分析的信息、提供图表或其他数据可视化等），其中界面可以包括以任何方式布置的任何信息。界面可以包括布置在任何位置的任何数量的任何类型的输入或驱动机制（例如，按钮、图标、字段、框（box）、链接等），以通过任何合适的输入设备（例如，鼠标、键盘等）输入/显示信息，并启动希望的操作。界面屏幕可以包括任何合适的驱动器（actuator）（例如，链接、标签等），以便以任何方式在屏幕之间导航。

本发明的实施例不限于上述特定的任务或算法，而可以用于从任何处理类型的任何数据源分析和生成数据可视化。

此处使用的术语仅用于描述特定实施例的目的，并非用于限制本发明。如在此处所使用的，单数形式的“一个”和“该”也意欲包括复数形式，除非上下文清楚地表明是其他情形。还应该理解的是，术语“包含”、“包括”、 “具有”、“有”等，在本说明书中使用时，明确说明所述特征、整数、步骤、操作、元件和/或组件的存在，但并不排除存在或附加一个或多个其他的特征、整数、步骤、操作、元件、组件和/或这些特征、整数、步骤、操作、元件、组件的组。

对应的结构、材料、行为和所有部件或步骤加上下面的权利要求中的功能元件的等价物意欲包括用于与如具体主张权利的其他请求保护的元件组合执行功能的任何结构、材料或行为。本发明的描述被提出用于示例和说明目的，而不是意图穷尽性的或限制为所公开形式的本发明。对本领域的普通技术人员来说，在不脱离本发明的范围和精神的情况下，许多修改和变化是显而易见的。对实施例进行选择和描述，以对本发明的原理和实际应用做出最好的说明，使本领域中的其他普通技术人员能够对于具有适合于预期的特定用途的各种修改的多个实施例理解本发明。

所属技术领域的技术人员知道，本发明的各个方面可以实现为系统、方法或计算机程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、驻留软件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器(ROM)、可擦式可编程只读存储器 (EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如 Java、Smalltalk、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网 (LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

下面将参照根据本发明实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。

也可以把这些计算机程序指令存储在计算机可读介质中，这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作，从而，存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品（article of manufacture）。

计算机程序指令还可以加载到计算机、其他可编程数据处理装置或其他设备上，以使得一系列操作步骤在计算机、其他可编程装置或其他设备上执行，产生计算机实现的处理，使得在计算机或其他可编程装置上执行的指令提供用于实现在流程图和/或框图的一个或多个方框中规定的功能/行为的处理。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于初始数据可视化确定替代性数据可视化的方法和系统 [P] . 中国专利： CN103678457B . 2017.05.24
2. 基于初始数据可视化确定替代性数据可视化的方法和系统 [P] . 中国专利： CN103678457A . 2014-03-26
3. Determination method of alternative visualization for data based on initial data visualization [P] . 日本专利： JP6278639B2 . 2018-02-14

机译：基于初始数据可视化的替代数据可视化确定方法
4. METHOD OF DETERMINING ALTERNATIVE VISUALIZATIONS FOR DATA BASED ON INITIAL DATA VISUALIZATION [P] . 日本专利： JP2014056573A . 2014-03-27

机译：基于初始数据可视化的数据可视化确定方法
5. DETERMINING ALTERNATIVE VISUALIZATIONS FOR DATA BASED ON AN INITIAL DATA VISUALIZATION [P] . 美国专利： US2014198105A1 . 2014-07-17

机译：基于初始数据可视化确定数据的替代可视化