法律状态公告日
法律状态信息
法律状态
2020-06-23
未缴年费专利权终止 IPC(主分类):G06F17/24 授权公告日:20180116 终止日期:20190625 申请日:20150625
专利权的终止
2018-01-16
授权
授权
2015-12-02
实质审查的生效 IPC(主分类):G06F17/24 申请日:20150625
实质审查的生效
2015-11-04
公开
公开
技术领域
本发明属于专题地图自动化制作领域,具体涉及一种基于统计数据与制图需求的统计符号自动选择方法。
技术背景
地图通过特有的符号系统表现各种复杂的空间和非空间对象。这种复杂的符号系统不仅能表现制图对象的地理位置、范围、质量特征、数量指标等静态的空间结构特征,而且能够直观地显示各种制图对象分布变化及其相互关系等动态信息。统计专题地图是以专题地图的形式反映某类与地理空间相关的统计数据的地图。统计符号是统计专题地图最基本且最重要的组成部分,能够达到统计数据可视化的目的。
统计符号自动选择是指在统计专题地图自动制图过程中,由计算机智能的自动确定制图中所选用的统计符号类型。在目前的各大制图软件中,统计符号的选择,由制图者人工完成,对制图者的专业要求较高,不符合大众化制图的要求。统计符号的选择,是由制图目的和统计数据共同决定的。
目前,关于统计符号的自动选择研究仅限于统计专题地图表示方法自动推荐阶段,还未完全实现统计符号的自动选择。分析现有的专题制图模块可知,都采用了“表示方法
技术内容
本发明提出了一种基于统计数据与制图需求的统计符号自动选择方法,旨在解决现有技术中的制图方法需要制图者人工完成统计符号的选择,对制图者专业要求较高,不符合大众化制图的要求的问题。
针对上述技术问题,本发明基于统计数据与制图需求的统计符号自动选择方法包括如下步骤:
1)制图者选取制图模式及所期望的统计符号样式;
2)对统计数据进行特征提取,判断出统计数据的数据形式、字段类型和数据差异 程度,确定统计数据类型;所述统计数据类型包括字符型、数值型单字段差异度大、数值型单字段差异度适中、数值型单字段差异度小、数值型多字段结构关系、数值型多字段对比关系六种类型;
3)根据统计数据的类型,从预先建立的统计符号类库中选取该统计数据类型对应的数据相关视觉变量,从而确定统计数据相关视觉变量集;所述统计符号类库是根据数据相关视觉变量与统计数据类型、统计符号的映射关系建立的,统计符号类库至少包括一一对应的统计符号名称、数据相关视觉变量、统计数据类型,以及统计符号名称所包含的若干种统计符号样式;
4)对统计符号样式对应的需求相关视觉变量集与统计数据相关视觉变量集求交集,若该交集不为空,那么,选择该交集中相关视觉变量所对应的统计符号样式为制图所用的统计符号样式,否则认为无法选出合适的统计符号样式,为制图者提供反馈和修改建议。
所述步骤1)中制图者选择所期望的统计符号样式时,是从制图需求界面中进行选择,所述制图需求界面建立包括如下步骤:
1)制图需求的收集;
2)分析制图需求,整理归类提取制图需求的关键点;
3)建立制图需求约束集,即
4)运用语言文字和可视化图形的方法,将需求约束集通俗化,最终形成制图需求界面。
所述步骤3)中统计符号类库中统计数据类型为数值型单字段差异度适中,对应的统计符号名称为点密度,对应的数据相关视觉变量为面域密度;统计数据类型为数值型单字段差异度适小,对应的统计符号名称为分级面,对应的数据相关视觉变量为面域饱和度;统计数据类型为数值型单字段差异度大,对应的统计符号名称为分级圆,对应的数据相关视觉变量为圆半径尺寸。
所述步骤3)中统计符号类库中统计数据类型为数值型多字段对比关系,对应的统计符号名称为直方图,对应的数据相关视觉变量为矩形高尺寸、个数尺寸,或对应的统 计符号名称为玫瑰图,对应的数据相关视觉变量为扇形半径尺寸、扇形色相;统计数据类型为数值型多字段结构关系,对应的统计符号名称为格网图,对应的数据相关视觉变量为个数尺寸、方格色相。
所述步骤3)中统计符号类库中统计数据类型为字符型,对应的统计符号名称为分类面,对应的数据相关视觉变量为面域色相。
所述步骤2)中对数据类型为数值型单字段统计数据差异度的识别方法为:构造的单字段差异度统计量
所述步骤3)中制图模式包括数据优先模式、需求优先模式、双向选择模式。
本发明的一种基于统计数据与制图需求的统计符号自动选择方法,分别从统计数据和制图需求两个方向推求统计制图的视觉变量集,对两个方向推求出的视觉变量集求交集,确定最终统计制图所需的统计数据与统计符号,对求交集后的结果进行有效的反馈,为制图者提供明确的修改方案,从而能够实现统计制图中统计符号的自动选择,大大降低了制图门槛,并提高了制图效率和制图质量,具有很好的实用性。
附图说明
图1为本实施例中基于统计数据和制图需求的统计符号自动选择方法流程图;
图2为本实施例中统计数据与视觉变量关系及统计符号与视觉变量关系示意图;
图3为本实施例中统计符号分类示意图;
图4为本实施例中ArcGIS软件中专题地图符号分类体系图;
图5为本实施例中统计符号组织存储图;
图6为本实施例中制图需求界面的设计流程图;
图7为本实施例中制图需求界面图;
图8为本实施例中制图需求约束集的通俗化处理示意图;
图9为本实施例中统计符号属性示意图。
具体实施方式
下面结合附图对基于统计数据与制图需求的统计符号自动选择方法进行详细说明。
1)制图者选取制图模式及所期望的统计符号样式;
2)对统计数据进行特征提取,判断出统计数据的数据形式、字段类型和数据差异程度,确定统计数据类型;所述统计数据类型包括字符型、数值型单字段差异度大、数值型单字段差异度适中、数值型单字段差异度小、数值型多字段结构关系、数值型多字段对比关系六种类型;
3)根据统计数据的类型,从预先建立的统计符号类库中选取该统计数据类型对应的数据相关视觉变量,从而确定统计数据相关视觉变量集;所述统计符号类库是根据数据相关视觉变量与统计数据类型、统计符号的映射关系建立的,统计符号类库至少包括一一对应的统计符号名称、数据相关视觉变量、统计数据类型,以及统计符号名称所包含的若干种统计符号样式;
4)对统计符号样式对应的需求相关视觉变量集与统计数据相关视觉变量集求交集,若该交集不为空,那么,选择该交集中相关视觉变量所对应的统计符号样式为制图所用的统计符号样式,否则认为无法选出合适的统计符号样式,为制图者提供反馈和修改建议。
下面对上述技术手段进行具体介绍:
步骤1)中制图者选择所期望的统计符号样式时,可以现有的统计符号样式库中选取,也可以从制定好的制图需求界面中进行选择,下面详细介绍一下制图需求界面建立的过程:
制图需求是制图者或用图者所确定的制图的目的、要求。专业的制图者可以根据制图需求合理的选择数据,选择统计符号类型,顺利的完成制图;但非专业人员往往只知道制图需求,对数据的选取无法评价,对统计符号的表达功能不了解,对统计符号的选择手足无措。制图需求的形式是多样的,简单的语言文字描述可能会因为过于概括,使非专业人员难以理解,单纯的可视化图形描述可能使非专业人员不清楚计算机提供的需求详细内容;因此,本实施例提供一种图形用户界面交互的方式,以可视化图形与语言文字相结合,将制图需求转化为更能令制图者接受的方式,供制图者选择,以提高制图的效率。
制图需求界面的设计流程如图6所示,首先是收集制图需求,分析制图需求,整理归类提取制图需求的关键点,把握制图需求的主要矛盾。通过整理大量的制图需求,提取到需求的关键点主要有两点:一是制图所要侧重表达的地理范围,是侧重统计单元间的数据表达,还是侧重于统计单元内的数据表达,例如,某一产品各销售区的销量,侧 重于表达统计单元间的数据;某省各县玉米和小麦产量结构对比,侧重与统计单元内的结构表达。二是制图数据符号表达的详细程度,分为分类、分级、数值、数值对比、结构对比。其次,根据制图需求的关键点,建立制图需求约束集,关键点主要体现为两种约束,数据侧重表达的地理范围约束和表达详细程度约束。将两种约束进行交集运算,即可得到制图需求约束集。即:
再次,运用语言文字和可视化图形的方法,将需求约束集通俗化,如图8所示。
最后设计的制图需求界面如图7所示。
下面详细介绍步骤2)的技术手段:
首先,对如何识别统计数据类型进行详细介绍。根据统计数据的数据形式,可以将统计数据分为字符型和数值型,其中,数值型数据根据数据所包含的字段数,分为单字段数值和多字段数值;根据单字段数值间的差异度程度,单字段数值型数据又可分为差异度大、差异度适中、差异度小三类;根据多字段数值型数据字段间的关系,多字段数值型数据又可分为结构关系和对比关系,即:
以河南省粮食为例,其中,粮食的类型如小麦、玉米等是字符型的,粮食产量的具体数据是数值型,如果只侧重于玉米的产量,那么该数据就是单字段类型,如侧重于玉米、小麦、水稻等产量,那么该数据为多字段类型。如果仅仅侧重于展示玉米、小麦、水稻等粮食类型的产量,那么为结构关系多字段类型,如果侧重于玉米、小麦、水稻等粮食类型产量的比较,那么为对比关系多字段类型。
在明确了统计数据的类型后,下面对各种类型统计数据的识别方法进行详细说明。
本实施例中优选通过存储单个数据的字节数来判断统计数据的数据形式,进而识别 出是数值型数据,还是字符型数据,当然也可以采用现有技术中的识别方法进行判断。
对于数值型数据,本实施例中通过计算字段的个数来判断是单字段还是多字段,也可以采用其他的判断方式。
本实施例中最重要的是对单字段数据差异度类型的判断,对于单字段差异度的判断本实施例采用如下的优选方法:
构造的单字段差异度统计量为:
>
公式中,xmax为统计数据最大值,xmin为统计数据最小值。由公式可知p<1。体现差异度的是最大值与最小值,而与中间值几乎没有关系。xmax与xmin间的差异越大,p越接近1,将差异度分为大、中、小三种级别。分级圆符号采用的是一种数值表示方法,且符号构造简单、对差异度比较敏感,通过对电子地图分级圆符号的视觉效果分析得到三种级别合理的阈值。
当p≥0.92时,差异度大;
当0.18<p<0.92时,差异度适中;
当p≤0.18时,差异度小。
对差异度特征的提取,只需将对应统计数据的最大值、最小值代入公式(1),判断计算结果的归属区间即可判断出单字段数据差异度类型。
当然,也可以构造其他的单字段差异度统计量计算公式,只要能表现出统计数据差异程度即可,相应地,对于三种级别阈值的选取也可以根据公式的改变而变化。
对于多字段数据关系类型的识别方法,现有技术中有很多,本实施例优选如下方法:
分别针对结构关系、对比关系对语料进行收集和组织,建立字段关系语料库。建立字段关系语料库应遵循如下原则:
①收集的语料尽量精简。对含具有同一关系的对等语料存储时应除去公共词,如将“男性”、“女性”除去公共词后将其存储为“男”、“女”。
②结构关系根据字段是否可穷举也分为两类:字段可穷举型和字段不可穷举型。如“小麦”、“玉米”、“水稻”属于字段不可穷举型,因为很难穷举所有的农作物种类;而“第一产业”、“第二产业”、“第三产业”属于可穷举型。对于这两种不同的结构关系, 应该在存储时将其分开,因为这两种不同的结构关系在计算多字段关系特征时的算法也有区别。表1是一种字段关系语料库的示例。
表1统计专题地图字段关系语料库示例
由于汉语的多元性,对于同一含义各地可能有不同的表达方式,又考虑到中英文的使用环境,建立了统计专题要素的同义词表。同义词指向同一含义的字段,具有相同的编码。表2是一种统计专题要素同义词表的示例。
表2统计专题要素的同义词表
实际上,字段关系语料库中的专题字段以编码的形式存储。编码的原则是:编码以五位数字表示,其中第一位表示关系类型,包含相关关系的对等的统计专题要素(如第一产业、第二产业属于对等的统计专题要素)仅最后一位不同,同一语义的不同表达方式对应同一编码。
在确定了字段关系语料库后,基于字段名的语义信息,从字段关系语料库中识别出该多字段数据间的关系。
在步骤3)中涉及到统计符号类库,下面我们详细介绍统计符号类库的建立原理及过程:
统计符号类库至少包括一一对应的统计符号名称、数据相关视觉变量、统计数据类型,以及统计符号名称所包含的若干种统计符号样式。其中,数据相关视觉变量与统计数据类型及统计符号映射关系的确定是建立统计符号类库的关键问题,下面对该问题进行详细介绍:
视觉变量也称图形变量,是图形符号之间具有的可引起视觉差别的最基本的图形或色彩因素的变化,是地图上的最小图解单元。基本的视觉变量主要有形状、尺寸、色彩、密度、方向、透明度、图案等。
视觉变量与统计数据、统计符号的关系密不可分。在统计符号的自动选择过程中,视觉变量扮演着重要的角色。如图2所示,视觉变量设计是统计数据可视化为统计符号的中间环节。
①视觉变量与统计数据的映射关系。
视觉变量表征统计数据的要素特征,而统计数据控制视觉变量的外在形式。根据其表现形式,视觉变量的构建方法分为两部分,如图2(a)所示。客观视觉变量通过与之关联的数学处理模型实时计算而得到具体数值,体现了符号生成过程严谨的科学性;主观视觉变量通过符号整体美观性与协调性的原则设置相应数值,体现了符号生成过程灵活的艺术性。主观视觉变量只影响统计符号的表现形式,不影响符号类型的选择。
②视觉变量与统计符号的映射关系
统计符号是由基本图元在图元布局的约束下进行组合配置构建的。根据基本图元的组成结构,其构建方法分为两部分,图形轮廓线在线型视觉变量布局约束下进行构建,而填充图形在填充型视觉变量布局约束下进行构建。如图2(b)所示。
基本的视觉变量通过作用于符号几何图元,与符号几何图元一起构成统计符号。由于基本视觉变量无法详细具体的指定作用于何种几何图元的视觉变量。本实施例将基本 视觉变量与统计符号的几何图元结合,定义为统计图元视觉变量,简称统计视觉变量。即:
统计视觉变量={色相(面域)、色相(扇形)、饱和度(面域)、尺寸(圆半径)、尺寸(扇形半径)、尺寸(矩阵高)、尺寸(方格个数)、尺寸(扇形角度)、密度(面域)}。
对统计视觉变量进行编码,采用两位码,第一位代表基本视觉变量类型,第二位代表图元类型,具体编码情况如表3所示
表3统计视觉变量编码表
基于统计数据与视觉变量的关系,设计数据相关视觉变量集。统计数据类型与视觉变量的关系如表4所示。
表4数据相关视觉变量设计规则表
③数据相关视觉变量设计规则的形式化表达
数据相关视觉变量集的设计遵循上表所示的统计数据与视觉变量关系,即表4为数据相关视觉变量集的设计规则。要想使表4所示的数据相关视觉变量设计规则被计算机所识别,需要对表4所示的数据相关视觉变量设计规则进行形式化表达。由于产生式知识表示方法是发展最为成熟、应用最为广泛、技术手段最易实现的知识表示方法,其具 有知识的表示直观、便于用户理解的优点,又考虑到统计数据类型与视觉变量的关系分左部和右部两部分,产生式知识表示方法将知识分为条件与结论,两者相类似,因此,本实施例对数据相关视觉变量集的设计规则采用产生式知识表示方法进行可视化表达。
产生式知识表示方法的基本形式是:P→Q或IF P THEN Q。其中,P是产生式规则的条件语句;Q是产生式规则的结论语句,对应于一组结论或动作。形式化公式如下:
IF{单字段字符型}THEN{11};
IF{单字段差异度小型}THEN{21};
IF{单字段差异度适中型}THEN{21,34,41}
…………
公式中的数字编码为统计视觉变量的两位编码,参见表3所示的统计视觉变量编码表。
在确定了数据相关视觉变量设计规则表后,就可以根据统计数据的类型来确定其对应的数据相关视觉变量集,但是要想确定需求相关视觉变量集,仅根据数据相关视觉变量设计规则表远远不够,因为选取制图需求后,就是唯一确定了统计符号样式,所以,需要根据统计符号样式来确定其对应的数据相关视觉变量集(基于制图需求所确定的视觉变量集,被定义为需求相关视觉变量集),这就需要构建统计符号样式与数据相关视觉变量之间的关系,因此,本实施例构建了统计符号类库,该统计符号类库至少包括一一对应的统计符号名称、数据相关视觉变量、统计数据类型,以及统计符号名称所包含的若干种统计符号样式,具体构建过程如下:
任何统计符号均是由一定的几何图元组成;几何图元之间存在着一定的组合配置规则,通过该规则可任意组建符号;几何图元依靠视觉变量与统计数据关联,视觉变量通过值的变化来传递统计数据的定量信息,进而影响几何图元的外在形式。统计符号类型丰富,形态各异,依据符号的几何形态可以分为点状符号、线状符号、面状符号,这种分类虽然考虑了符号的构造形态,但是没有考虑统计数据与统计符号之间的相关关系。为此,在归纳总结常见的60种统计制图符号的基础上,将统计制图符号分为单一统计符号、关系统计符号、集合统计符号三类,如图3所示。
其中,单一符号是指表征单要素单指标的统计符号,由单个图元或视觉变量构成,通常具有分类特征、分级特征和数值特征;关系统计符号是指表征单要素多指标的统计符号,由多个图元或视觉变量构成,通常具有对比关系特征、结构关系特征;集合统计符号是指表征多要素多指标的统计符号,是对上述二者的有机组合,其各个统计符号之 间相互独立。
上述统计符号的分类充分考虑了符号的各种形态,体现了统计符号的多样性。但在实际的计算机自动制图软件中,只需选取具有代表性的统计符号即可。如SuperMap软件中的专题地图表示分为单值专题图、范围分段专题图、等级符号专题图、点密度专题图、统计专题图、标签专题图和自定义专题图8种。ArcGIS软件中的专题地图符号分为5类12种,如图4所示。
针对统计地图一般是以面状区域为统计单元的大中比例尺专题地图这一特点,本实施例不涉及线状专题要素的表示方法,将统计符号分为分类面、分级圆、分级面、二维结构饼、点密度、数值圆、直方图、格网图、玫瑰图九种,如图9所示的统计符号属性,该图中所涉及到的统计符号样式一般是具有颜色的,以更加明显的展示统计数据的特点。
根据图9所示统计符号类型的属性,如符号的几何类型、数据特征、所包含的数据相关视觉变量等,本实施例对统计符号进行编码,并且采用XML结构化语言实现统计符号的组织与存储,建立统计符号类库,如图5所示。
其中,统计符号编码采用7位数字构成:第一位代表统计符号编号;第二位代表统计符号的几何类型(1代表点状符号,2代表线状符号,3代表面状符号);第三位代表统计符号对应的统计指标类型(1代表简单指标(单字段),2代表复合指标(多字段))。后四位代表统计符号所包含的数据相关的视觉变量编码,若只包含一个视觉变量则前两位以00替代。
需要指出,在上述建立统计符号类库的实施例中,分别建立了字符型统计数据、数值型单字段统计数据和数值型多字段统计数据与数据相关视觉变量及统计符号之间的映射关系。作为其他实施方式,可以仅采用如图9所示的数值型单字段统计数据与数据相关视觉变量及统计符号之间的映射关系,而字符型统计数据和数值型多字段统计数据与数据相关视觉变量及统计符号之间的映射关系可以采用现有技术中的其他映射关系。当然,也可以采用如图9所示的数值型统计数据与数据相关视觉变量及统计符号之间的映射关系,而字符型统计数据与数据相关视觉变量及统计符号之间的映射关系可以采用现有技术中的其他映射关系。
在建立了统计符号类库后,由制图者经制图需求界面选取制图需求,根据所选取的制图需求可以唯一确定制图需求所对应的可选统计符号,根据统计符号类库中统计符号的编码,可以提取该统计符号对应的数据相关视觉变量,举例如下所示:
可见,分类面统计符号对应的数据相关视觉变量编码为11,分级面统计符号对应的数据相关视觉变量编码为21,饼状图统计符号对应的数据相关视觉变量编码为13、38,直方图统计符号对应的数据相关视觉变量编码为37、36;基于制图需求所确定的视觉变量集,被定义为需求相关视觉变量集,因此,也就确定了需求相关视觉变量集。
在确定数据相关视觉变量集与需求相关视觉变量集时,均涉及到统计符号类库,统计符号类库可以选择本实施例中所设计的,也可以采用现有技术中已有的。但是,数据相关视觉变量集与需求相关视觉变量集所涉及到的统计符号类库必须相同。
数据相关视觉变量集与需求相关视觉变量集都已确定,所得到的是统计视觉变量的编码集合,对两组集合进行相似性匹配即对两组集合求交集,即可得到满足要求的统计符号。
由于得到的是统计视觉变量的编码,具体的相似性匹配方法很简单,即两组数字的两两比较,如果完全相等,则相似性匹配成功,否则,匹配失败。
在实施视觉变量集的相似性匹配之前,需要选择制图模式。发明中的三种制图模式,分别为数据优先模式、需求优先模式、双向选择模式,三种模式分别代表不同的相似性匹配策略和反馈内容。
分析制图者的制图行为,有数据引导型的制图行为和制图目的引导型的制图行为。数据引导型的制图行为侧重于数据的可视化,以统计数据的可视化表达为目的,不可更换统计数据;制图目的引导型的制图行为侧重于制图目的的实现,可以更换不合适的统计数据。
数据优先模式是对数据引导型制图行为的描述,需求优先模式是对制图目的引导型制图行为的描述,双向选择模式是对数据引导和制图目的引导的综合考虑。
将两组统计视觉变量集进行匹配的结果有两种,即匹配成功和匹配失败,匹配成功,就可以根据统计视觉变量得到可以选择的统计符号,若匹配失败,需要做出调整和修改,不但反馈给制图者匹配的结果,还将给制图者提供合理的建议。如表5所示,展示了不同制图模式下的匹配策略和反馈内容。
表5不同制图模式下的匹配策略和反馈内容
上述实施例的基于统计数据与制图需求的统计符号自动选择方法,分别从统计数据和制图需求两个方向推求统计制图的视觉变量,运用视觉变量的相似性匹配,确定最终统计制图所需的统计数据与统计符号,对匹配结果进行有效的反馈,为制图者提供明确的修改方案,从而能够实现统计制图中统计符号的自动选择,并提高了制图效率和制图质量,具有很好的实用性。
机译: 参考施行符号语义统计数据的基于消息传递算法的解码操作控制方法及相关控制装置
机译: 使用基于粗略和精细自动对焦得分的图像统计数据进行自动对焦控制
机译: 统计数据,例如呼叫数据记录,一种用于基于移动互联网协议的多媒体子系统中的收集方法,涉及评估应用程序运行期间的用户行为并将信息传输到用户终端