首页> 中国专利> 连锁品牌词词库、类别词词库建立方法和装置

连锁品牌词词库、类别词词库建立方法和装置

摘要

本发明实施例公开了连锁品牌词、类别词词库建立方法和装置。一种情况下,基于同一城市POI数据库中的POI数据进行连锁品牌词识别器的训练,利用该连锁品牌词识别器可对POI数据库中所有POI数据的名称主干进行识别,识别出是连锁品牌词的名称主干,并将其存储在连锁品牌词词库中。另一种情况下,基于用户查询日志中记录的查询词和与查询词对应的被点击的POI数据进行识别器的训练,利用该识别器可对用户查询日志中记录的所有查询词进行识别,识别出是连锁品牌词和类别词的查询词,并分别将其存储在连锁品牌词词库和类别词词库中。根据本发明实施例,不仅提高了工作效率,还可以通过定时挖掘,实现及时更新词库。

著录项

  • 公开/公告号CN104462143A

    专利类型发明专利

  • 公开/公告日2015-03-25

    原文格式PDF

  • 申请/专利权人 高德软件有限公司;

    申请/专利号CN201310439450.6

  • 发明设计人 刘广权;

    申请日2013-09-24

  • 分类号G06F17/30(20060101);

  • 代理机构11227 北京集佳知识产权代理有限公司;

  • 代理人王宝筠

  • 地址 102200 北京市昌平区科技园区昌盛路8号B1座1-5层

  • 入库时间 2023-12-18 08:05:40

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-05-29

    专利权的转移 IPC(主分类):G06F17/30 登记生效日:20200511 变更前: 变更后: 申请日:20130924

    专利申请权、专利权的转移

  • 2018-01-30

    授权

    授权

  • 2015-04-22

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130924

    实质审查的生效

  • 2015-03-25

    公开

    公开

说明书

技术领域

本发明涉及地理信息技术领域,特别是连锁品牌词词库、类别词词库建立方法和装置。

背景技术

在利用导航引擎进行路径导航之前,通常需要先搜索目的地。在搜索目的地的过程中,用户先向导航引擎输入一个查询词,导航引擎从POI(Point ofInterest,兴趣点)数据库中搜索与该查询词匹配的几个POI数据,当用户从中选择一个POI数据后,导航引擎根据用户选择的POI数据进行路径规划并导航。

在一些情况下,用户输入的查询词可能是反映某一种类别的类别词,例如,“餐馆”是一个类别词,基于不同的维度,“餐馆”既可以分为“中餐餐馆”和“西餐餐馆”,又可以分为“高档餐厅”和“街头小吃铺”,而“中餐餐馆”、“西餐餐馆”、“高档餐厅”和“街头小吃铺”作为“餐馆”的子类别,同样也都是类别词。在另一些情况下,用户输入的查询词也可能是反映某一个连锁品牌机构的连锁品牌词,例如,“工商银行”、“肯德基”和“苏宁电器”等都属于连锁品牌词。

目前,基于用户需求的考虑,为提高搜索结果的准确性,确保搜索结果更符合用户所需要查询的结果,当查询词是一个类别词或者是一个连锁品牌词时,导航引擎搜索与该查询词匹配的POI数据的搜索方法以及对搜索结果的排序方法与查询词为普通词(普通词不是类别词也不是连锁品牌词,如方恒国际中心)时,导航引擎所采用的搜索方法和排序方法不同。如当导航引擎判断出用户输入的查询词为类别词时,说明用户需要搜索的应该是某一种类别的POI,因此导航引擎采取的搜索方法是根据用户输入的类别词,从POI数据库中筛选出与该类别词匹配的POI,并在展示查询结果时按照POI距离用户位置由近到远的顺序展示;而当导航引擎判断出用户输入的查询词为连锁品牌词时,由于连锁品牌机构在地理上来说分布较为均匀,说明用户需要搜索的应该是距离当前位置较近的连锁品牌机构,因此导航引擎采取的搜索方法是搜索用户位置周边一定范围内的与连锁品牌词匹配的POI,并且在展示检索结果时,按照POI距离用户位置由近到远的顺序展示。

现有技术中,导航引擎判断用户输入的查询词为类别词或连锁品牌词的方式为:通过将查询词与类别词词库和连锁品牌词词库进行匹配,若从类别词词库中匹配到该查询词则判断该查询词为类别词,若从连锁品牌词词库中匹配到该查询词则判断该查询词为连锁品牌词词库。目前主要通过人工对POI数据进行分析、总结归纳出一些常用的类别词和连锁品牌词,并分别建立类别词词库和连锁品牌词词库,以便导航引擎依据类别词词库和连锁品牌词词库来识别一个查询词为类别词或连锁品牌词。但是,这种依靠人工的总结归纳来建立类别词词库和连锁品牌词词库的方式不仅工作效率低,而且,一旦出现了新的词汇,也无法及时更新词库。

发明内容

为了解决上述技术问题,本发明实施例提供了连锁品牌词、类别词词库建立方法和装置,能够从POI数据库中自动挖掘出连锁品牌词,以及从用户查询日志中自动挖掘出连锁品牌词和类别词,不仅提高了工作效率,而且,还可以通过定时挖掘,实现及时更新词库。

本发明实施例公开了如下技术方案:

一种连锁品牌词词库建立方法,包括:

将同一城市兴趣点POI数据库中名称主干相同的POI数据聚合成一个POI数据组,所述POI数据组与所述名称主干对应;

从各个POI数据组中提取所述POI数据组的识别特征;

从所有POI数据组中抽取出名称主干已被标记为连锁品牌词和非连锁品牌词的POI数据组作为训练数据,基于所述训练数据的识别特征进行连锁品牌词识别器的训练;

利用训练后的所述连锁品牌词识别器对所有POI数据组对应的名称主干中未识别的名称主干进行识别,识别出是连锁品牌词的名称主干;

将所述是连锁品牌词的名称主干存储在预置的连锁品牌词词库中。

一种连锁品牌词词库和类别词词库建立方法,包括:

从用户查询日志中,获取不同用户在同一城市通过相同的查询词查询得到的POI数据,将获取到的POI数据聚合成一个POI数据组,所述POI数据组与所述查询词对应;

从各个POI数据组中提取所述POI数据组的识别特征;

从所有POI数据组中抽取出查询词已被标记为连锁品牌词、类别词和普通词的POI数据组作为训练数据,基于所述训练数据的识别特征进行识别器的训练;

利用训练后的识别器对所有POI数据组对应的查询词中未识别的查询词进行识别,识别出是连锁品牌词和类别词的查询词;

将所述是连锁品牌词的查询词存储在预置的连锁品牌词词库中,以及将所述是类别词的查询词存储在预置的类别词词库中。

一种连锁品牌词词库建立装置,包括:

第一聚合单元,用于将同一城市POI数据库中名称主干相同的POI数据聚合成一个POI数据组,所述POI数据组与所述名称主干对应;

第一特征提取单元,用于从各个POI数据组中提取所述POI数据组的识别特征;

第一训练单元,用于从所有POI数据组中抽取出名称主干已被标记为连锁品牌词和非连锁品牌词的POI数据组作为训练数据,基于所述训练数据的识别特征进行连锁品牌词识别器的训练;

第一识别单元,用于利用训练后的所述连锁品牌词识别器对所有POI数据组对应的名称主干中未识别的名称主干进行识别,识别出是连锁品牌词的名称主干;

第一词库建立单元,用于将所述是连锁品牌词的名称主干存储在预置的连锁品牌词词库中。

一种连锁品牌词词库和类别词词库建立装置,包括:

第二聚合单元,用于从用户查询日志中,获取不同用户在同一城市通过相同的查询词查询得到的POI数据,将获取到的POI数据聚合成一个POI数据组,所述POI数据组与所述查询词对应;

第二特征提取单元,用于从各个POI数据组中提取与所述POI数据组的识别特征;

第二训练单元,用于从所有POI数据组中抽取出查询词已被标记为连锁品牌词、类别词和普通词的POI数据组作为训练数据,基于所述训练数据的识别特征进行识别器的训练;

第三识别单元,用于利用训练后的识别器对所有POI数据组对应的查询词中未识别的查询词进行识别,识别出是连锁品牌词和类别词的查询词;

第二词库建立单元,用于将所述是连锁品牌词的查询词存储在预置的连锁品牌词词库中,以及将所述是类别词的查询词存储在预置的类别词词库中。

由上述实施例可以看出,与现有技术相比,本发明的优点在于:

本发明提供的连锁品牌词词库建立方法,基于同一城市POI数据库中的POI数据进行连锁品牌词识别器的训练,利用该连锁品牌词识别器可对POI数据库中所有POI数据的名称主干进行识别,识别出是连锁品牌词的名称主干,并将其存储在连锁品牌词词库中。另一种情况下,基于用户查询日志中记录的查询词和与查询词对应的被点击的POI数据进行识别器的训练,利用该识别器可对用户查询日志中记录的所有查询词进行识别,识别出是连锁品牌词和类别词的查询词,并分别将其存储在连锁品牌词词库和类别词词库中。与现有技术通过人工来对POI数据库中的POI数据进行分析来得到连锁品牌词相比,提高了获取连锁品牌词的效率,从而提高了建立连锁品牌词词库的效率和速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一种连锁品牌词词库建立方法的流程图;

图2为本发明另一种连锁品牌词词库建立方法的流程图;

图3为本发明一种连锁品牌词词库和类别词词库建立方法的流程图;

图4为本发明另一种连锁品牌词词库和类别词词库的建立方法的流程图;

图5为本发明一种连锁品牌词词库建立装置的一个实施例结构图;

图6为本发明另一种连锁品牌词词库建立装置的一个实施例结构图;

图7为本发明一种连锁品牌词词库和类别词词库建立装置的一个实施例结构图;

图8为本发明另一种连锁品牌词词库和类别词词库建立装置的一个实施例结构图。

具体实施方式

本发明实施例提供了连锁品牌词、类别词词库的建立方法和装置。一种情况下,基于同一城市POI数据库中的POI数据进行连锁品牌词识别器的训练,利用该连锁品牌词识别器可对POI数据库中所有POI数据的名称主干进行识别,识别出是连锁品牌词的名称主干,并将其存储在连锁品牌词词库中。另一种情况下,基于用户查询日志中记录的查询词和与查询词对应的被点击的POI数据进行识别器的训练,利用该识别器可对用户查询日志中记录的所有查询词进行识别,识别出是连锁品牌词和类别词的查询词,并分别将其存储在连锁品牌词词库和类别词词库中。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明实施例进行详细描述。

实施例一

本实施例基于POI数据库中的POI数据进行连锁品牌词识别器的训练,该连锁品牌词识别器可将来源于POI数据的名称主干分为连锁品牌词和非连锁品牌词,从分类结果中筛选出是连锁品牌词的名称主干,并将其存储在连锁品牌词词库中。请参阅图1,其为本发明一种连锁品牌词词库建立方法的流程图,该方法包括以下步骤:

步骤101:将同一城市POI数据库中名称主干相同的POI数据聚合成一个POI数据组,其中,所述POI数据组与所述名称主干对应;

“名称主干”是指将POI数据的名称中的分店和地址等附属信息去除后的部分,名称主干与附属信息的区分方式与POI数据格式相关。在一些常用的数据格式中,附属信息放在括号中,在其它的一些数据格式中,附属信息放在符号“—”的后面。例如,“工商银行(望京支行)”是一个POI数据的名称,其中,“工商银行”就是该POI数据的名称主干。还例如,“工商银行-望京支行”是一个POI数据的名称,其中,工商银行”就是该POI数据的名称主干。

将POI数据库中具有相同名称主干的POI数据汇总在一起,并形成POI数据组。显然,一个POI数据库会形成多个POI数据组,而每一个POI数据组包含有一个或多个POI数据,一个POI数据组包含的所有POI数据都具有相同的名称主干。

需要说明的是,在本发明技术方案中,“POI数据库”是包含同一城市的所有POI数据的数据库,例如,北京市POI数据库。

步骤102:从各个POI数据组中提取所述POI数据组的识别特征;

该识别特征为用于识别所述POI数据组对应的名称主干是否为连锁品牌词的参数。

该识别特征包括以下任意一个特征或任意多个特征的组合:空间分布距离;空间分布熵;POI数据组中名称带有分店标志的POI数据的比率;POI数据组中名称带有门标志的POI数据的比率;POI数据组的类别分值。

所述类别分值是指将所述POI数据组中类别相同的POI数据聚合成一个数据组,包含POI数据最多的数据组的类别对应的预置分值,所述预置分值是根据预置的所述类别出现连锁品牌机构的先验概率得到,所述先验概率等于N/M,其中M为所述训练数据中标记为连锁品牌词的名称主干所对应的POI数据的数量,N为所述M个POI数据中与所述包含POI数据最多的数据组的类别相同的POI数据的数量。

步骤103:从所有POI数据组中抽取出名称主干已被标记为连锁品牌词和非连锁品牌词的POI数据组作为训练数据,基于所述训练数据的识别特征进行连锁品牌词识别器的训练;

假设,基于一个POI数据库共聚合成1000个POI数据组,其中有100个POI数据组的名称主干已经被标记为连锁品牌词和非连锁品牌词,从1000个POI数据组中抽取100个POI数据组作为训练数据。对于首次建立词库来说,这100个POI数据组的名称主干可以是在建立词库之前预先由人工识别并标记的。对于词库更新来说,这100个POI数据组的名称主干可以是预先由人工识别并标记的,也可以是在之前建立连锁品牌词词库时由连锁品牌词识别器识别并标记的。

需要说明的是,本发明技术方案对训练数据中的POI数据组的个数不做限定。当然,抽取的训练数据越多,训练出的连锁品牌词识别器越准确。在具体操作时,可以根据对连锁品牌词识别器的准确性的要求,抽取适量的训练数据训练连锁品牌词识别器。

以从1000个POI数据组中抽取出100个POI数据组作为训练数据为例,这100个POI数据组对应的名称主干已被标记为连锁品牌词和非连锁品牌词,如,当为连锁品牌词时,将其标记为2,当为非连锁品牌词时,将其标记为0,共产生100个标记结果(2或0),显然,所标记出的每个标记结果都为准确的结果。然后再从这100个POI数据组中分别抽取相同的识别特征,共产生100组识别特征,每一组所提取的识别特征都是相同的,如,每一组提取的识别特征都是:空间分布距离和空间分布熵。最后基于100个标记结果和100组识别类特征对识别器模型进行训练得到可区分连锁品牌词和非连锁品牌词的连锁品牌词识别器。

下面,以上海市POI数据库中的一个POI数据组(具有相同的名称主干“苏宁电器”)为例,详细说明如何从一个POI数据组中提取识别特征,在该POI数据组中共有87个POI数据,如,苏宁电器(江桥店)和苏宁电器(银都路店)等。

(1)空间分布距离

首先,确定该POI数据组中87个POI数据在导航地图中的最小分布矩形,如,根据87个POI数据中的经纬度坐标,找出经度最大(即位于最东面)和经度最小(即位于最西面)的POI数据,以及,找出纬度最大(即位于最北面)和纬度最小(即位于最南面)的POI数据,得到:

经度最大的POI数据,其名称是苏宁电器(南汇东门大街店),经度为121.7629;

经度最小的POI数据,其名称是苏宁电器(公园路店),经度为121.1173;

纬度最大的POI数据,其名称是苏宁电器(北门路店),维度为31.6278;

纬度最小的POI数据,其名称是苏宁电器(卫零路店),纬度为30.7155。

根据以上4个经纬度数据可以确定一个矩形(即,该POI数据组中的87个POI数据构成的最小分布矩形)。

其次,选取最小分布矩形的最长边,将最长边做归一化处理,得到空间分布距离,如,计算出上述矩形的两个边分别为101.1公里和61.2公里,取最长边101.1公里,并进行归一化处理101.1/200=0.505,因此,空间分布距离为0.505。

由于连锁品牌机构的空间分布范围较广,因此,空间分布距离也就较大。反之,非连锁品牌机构的空间分布范围较窄,空间分布距离也就较小。根据空间分布距离这一识别特性可以区分一个POI数据是否为一个连锁品牌机构,进而区分该POI数据的名称主干是否为一个连锁品牌词。

(2)空间分布熵

首先,按照上述方式确定87个POI数据构成的最小分布矩形。

其次,将该最小分布矩形拆分成多个区域,分别统计87个POI数据在每个区域的分布概率,如,将该最小分布矩形拆分成3*3=9个区域,统计落入到各个区域的POI个数,结果为:{3,5,0,6,54,7,3,7,2},计算落入各个区域的POI个数与该POI数据组中POI数据的总个数的比值,得到分布概率为:{0.34482759,0.057471264,0,0.068965517,0.620689655,0.08045977,0.034482759,0.08045977,0.022988506}。

最后,计算87个POI数据在每个区域的分布概率的熵值,将该熵值做归一化处理,得到空间分布熵,如,采用求熵公式Sum[-P*log2(P)]/log2(N)计算熵值,计算结果为1.976/3.170=0.623,其中,“Sum”表示求和,“P”表示POI数据在每个区域的分布概率,“N”表示拆分的区域个数。

当然,可以采用其它的求熵公式计算熵值,本发明技术方案对熵值的计算公式并不做限定。

由于连锁品牌机构在空间的分布更均匀,因此,空间分布熵也就更大,反之,非连锁品牌机构在空间分布不均匀,空间分布熵也就较小。根据空间分布熵这一识别特性也可以区分一个POI数据是否为一个连锁品牌机构,进而区分该POI数据的名称主干是否为一个连锁品牌词。

(3)POI数据中名称带有分店标志的POI数据的比率

例如,将“店”和“营业厅”等字样作为分店标志,在87个POI数据中,名称中带分店标志的POI数据共有79个,计算POI数据中名称带有分店标志的POI数据的比率为79/87=0.908。

由于连锁品牌机构带分店标志的比率较高,因此,POI数据中名称带有分店标志的POI数据的比率也就较大,反之,非连锁品牌机构带分店标志的比率较低,POI数据中名称带有分店标志的POI数据的比率也就较小。根据POI数据中名称带有分店标志的POI数据的比率这一识别特性也可以区分一个POI数据是否为一个连锁品牌机构,进而区分该POI数据的名称主干是否为一个连锁品牌词。

(4)POI数据中名称带有门标志的POI数据的比率

例如,将“门字样”作为门标志,在87个POI数据中,名称带有门标志的POI数据共有2个,计算POI数据中名称带有门标志的POI数据的比率为2/87=0.023。

由于连锁品牌机构带门标志的POI数据的比率较低,因此,POI数据中名称带有门标志的POI数据的比率也就较小,反之,非连锁品牌机构带门标志的POI数据的比率较高,POI数据中名称带门标志的POI数据的比率也就较大。根据POI数据中名称带有门标志的POI数据的比率这一识别特性也可以区分一个POI数据是否为一个连锁品牌机构,进而区分该POI数据的名称主干是否为一个连锁品牌词。

(5)POI数据组的类别分值

所述类别分值是指将所述POI数据组中类别相同的POI数据聚合成一个数据组,包含POI数据最多的数据组的类别对应的预置分值,所述预置分值是根据预置的所述类别出现连锁品牌机构的先验概率得到,所述先验概率等于N/M,其中M为所述训练数据中标记为连锁品牌词的名称主干所对应的POI数据的数量,N为所述M个POI数据中与所述包含POI数据最多的数据组的类别相同的POI数据的数量。

在POI数据库中,一般会对其中的POI数据进行分类,通常会用二级或三级对POI数据进行分类,二级类为一级类的子类,三级类为二级类的子类。由于连锁品牌机构多数出现在“餐饮”、“购物”和“生活”一级类中,而非连锁品牌机构多数出现在“住宅”、“风景”和“政府机构”一级类中,因此,“餐饮”、“购物”和“生活”一级类的分值比“住宅”、“风景”和“政府机构”一级类的分值要高,如,将“餐饮”、“购物”和“生活”一级类的分值设置为2,将“住宅”、“风景”和“政府机构”一级类的分值设置为0,其余一级类的分值设置为1。

例如,在87个POI数据中,其中有40个POI数据的类别为“购物”,37个POI数据的类别为“住宅”,将类别都为“购物”的40个POI数据聚合成一个数据组,将类别都为“住宅”的37个POI数据聚合成另一个数据组,第一个数据组包含的POI数据最多,而其类别为“购物”,因此,POI数据组的类别分值为2。

将得到的100个标记结果和100组识别特征输入到训练模块,通过训练得到连锁品牌词识别器。例如,一种优选方案是:连锁品牌词识别器为线性分类器,该线性分类器为:

>y=Σ(Wi×Xi)+b>  式(1)

其中,式(1)中,Wi为第i个识别特征的权重系数,Xi为第i个识别特征的值,b为常数项,当y大于或等于预设阈值则识别所述POI数组对应的名称主干为连锁品牌词,当y小于所述预设阈值则识别所述POI数据组对应的名称主干为非连锁品牌词。

通过训练,可以得到各识别特征对应的权重系数和常数项,具体为:

至此,连锁品牌词识别器训练完毕,该连锁品牌词识别器对POI数据组对应的名称主干进行识别后,输出的结果为一个数值,当该数值接近0时,则表示为名称主干为非连锁品牌词的几率大,当该数值接近2时,则表示为名称主干为连锁品牌词的几率大。

步骤104:利用训练后的所述连锁品牌词识别器对所有POI数据组对应的名称主干中未识别的名称主干进行识别,识别出是连锁品牌词的名称主干;

经过训练得到连锁品牌词识别器后,需要对与聚合成的所有POI数据组对应的名称主干中未识别的名称主干进行识别,需要基于POI数据组中提取的识别特征。即,将POI数据组的识别特征输入到连锁品牌词识别器中,连锁品牌词识别器输出的结果为一个数值,当该数值接近0时,表示与该POI数据组对应的名称主干为一个非连锁品牌词,当该数值接近2时,表示与该POI数据组对应的名称主干为一个连锁品牌词。具体操作时,可设定一个分类临界线,如1.5,当连锁品牌词识别器输出的数值大于或等于1.5时,名称主干为连锁品牌词,当连锁品牌词识别器输出的数值小于1.5时,名称主干为非连锁品牌词。最后从获得的所有结果中筛选出是连锁品牌词的名称主干,得到在一个POI数据库中的所有连锁品牌词。

步骤105:将所述是连锁品牌词的名称主干存储在预置的连锁品牌词词库中。

在建立了连锁品牌词词库后,当导航引擎进行目的地搜索时,可根据查询词是否为一个连锁品牌词而采取不同的搜索方式。其中,导航引擎判断查询词是否出现在该连锁品牌词词库中,如果是,确定该查询词为一个连锁品牌词,按照距离当前位置或指定位置先近后远的顺序从POI数据库中提取出POI数据,在提取出的POI数据范围内搜索与该查询词匹配的POI数据;否则,确定该查询词为一个非连锁品牌词,从POI数据库的所有POI数据范围内搜索与该查询词匹配的POI数据。

当导航引擎在对搜索结果进行排序时,也可以根据查询词是否为一个连锁品牌词而采用不同的排序方式。其中,导航引擎判断查询词是否出现在该连锁品牌词词库中,如果是,确定该查询词为一个连锁品牌词,以距离为主要因素对搜索到的POI数据进行排序(如根据距离用户当前位置由近到远的排序方式对搜索结果进行展示),否则,确定该查询词为非连锁品牌词,以文本相似度为主要因素对搜索到的POI数据进行排序。

由上述实施例可以看出,与现有技术相比,本发明的优点在于:

提供了基于一个POI数据库中的所有POI数据及从POI数据中提取的识别特征训练连锁品牌词识别器的方法,利用连锁品牌词识别器自动从POI数据库的所有POI数据中识别出是连锁品牌词的名称主干,基于识别出是连锁品牌词的名称主干建立一个连锁品牌词词库。这种自动识别方式不仅提高了工作效率,而且,还可以通过定时对POI数据库中所有POI数据的名称主干进行识别方式,实现及时更新词库。

实施例二

本实施例二与实施例一的区别在于,在获得连锁品牌词识别器后,进一步对连锁品牌词识别器的识别准确性进行检验,如果经检验其识别准确性不符合要求,对连锁品牌词识别器进行调节,然后再进行一次检验,不断重复校验和调节,直到连锁品牌词识别器的识别准确性符合要求为止。请参阅图2,其为本发明另一种连锁品牌词词库建立方法的流程图,该方法包括以下步骤:

步骤201:将同一城市兴趣点POI数据库中名称主干相同的POI数据聚合成一个POI数据组,所述POI数据组与所述名称主干对应;

步骤202:从各个POI数据组中提取所述POI数据组的识别特征;

所述识别特征为用于识别所述POI数据组对应的名称主干是否为连锁品牌词的参数。

步骤203:从所有POI数据组中抽取出名称主干已被标记为连锁品牌词和非连锁品牌词的POI数据组作为训练数据,基于所述训练数据的识别特征进行连锁品牌词识别器的训练;

上述步骤201-203的具体执行过程可以参见实施例一,本实施例对此不再赘述。以下进入检验过程:

步骤204:从所有POI数据组中抽取出名称主干已被标记为连锁品牌词和非连锁品牌词的POI数据组作为检验数据,所述检验数据和所述训练数据为不同的数据;

例如,基于一个POI数据库共聚合成1000个POI数据组,其中第1-200个POI数据组的名称主干已被标记为连锁品牌词和非连锁品牌词,从1000个POI数据组中抽取第1-100个名称主干已被标记为连锁品牌词和非连锁品牌词的POI数据组作为训练数据,从1000个POI数据组中抽取第101-200个名称主干已被标记为连锁品牌词和非连锁品牌词的POI数据组作为检验数据。

需要说明的是,本发明技术方案对检验数据中的POI数据组的个数不做限定。当然,抽取的检验数据越多,计算得到的连锁品牌词的识别准确率和识别召回率越可信,进而检验结果越可信。在具体操作时,可以根据对连锁品牌词识别器的准确性的要求,抽取适量的检验数据对该识别器进行检验。

步骤205:利用所述连锁品牌词识别器对所述检验数据的名称主干进行识别,识别出是连锁品牌词的名称主干;

其中,该识别方法可以参见实施例一中的步骤104,此处不再详述。最后,共得到100个识别结果。

步骤206:根据所述连锁品牌词识别器对所述检验数据的识别结果,计算所述连锁品牌词识别器对连锁品牌词的识别准确率和/或识别召回率;

其中,所述识别准确率等于所述识别结果中是准确的连锁品牌词的名称主干的数量除以所述识别结果中识别出的是连锁品牌词的名称主干的数量,所述召回率等于所述识别结果中是准确的连锁品牌词的名称主干的数量除以所述检验数据中已被标记为连锁品牌词的名称主干的数量,所述准确的连锁品牌词的名称主干是既被标记为连锁品牌词又被识别为连锁品牌词的名称主干。

例如,检验数据中共有400个名称主干,其中,有100个是标记为连锁品牌词,有300个标记为非连锁品牌词。通过连锁品牌词识别器对检验数据进行识别,识别结果中有90个名称主干被识别为连锁品牌词,但该识别结果中只有60个名称主干实际上是准确的连锁品牌(名称主干是既被标记为连锁品牌词又被识别为连锁品牌词的名称主干),其余30个为误判,实际上是非连锁品牌词。则,该连锁品牌词识别器对连锁品牌词的识别准确率为60/90=66.67%,连锁品牌词识别器对连锁品牌词的识别召回率为60/100=60%。在调节分类器时,可以选择性地只考虑连锁品牌词识别器对连锁品牌词的识别准确率,并只计算该参数,或者,选择性地只考虑连锁品牌词识别器对连锁品牌词的识别召回率,并只计算该参数。当然,也可以同时考虑连锁品牌词识别器对连锁品牌词的识别准确率和识别召回率,并同时计算两个参数。

步骤207:判断所述识别准确率和/或识别召回率是否大于或等于各自对应的阈值,如果否,进入步骤208,如果是,进入步骤209;

当上一步骤只计算了识别准确率时,本步骤就只需判断识别准确率是否达到准确率阈值,同样,当只计算了识别召回率时,本步骤就只需判断识别召回率是否达到召回率阈值。而如果同时计算了两个参数,本步骤需要同时判断这识别准确率是否达到了准确率阈值和判断所述识别召回率是否达到了召回率阈值。

例如,假设准确率阈值为0.8,计算得到的识别准确率达到准确率阈值,即,连锁品牌词识别器对连锁品牌词的识别准确率达到(即,大于或等于)了准确率阈值,可以直接利用连锁品牌词识别器对POI数据组对应的名称主干进行识别。再假设准确率阈值为0.9,计算得到的识别准确率没有达到准确率阈值,即,连锁品牌词识别器对连锁品牌词的识别准确率没有达到(即,小于)准确率阈值,需要对连锁品牌词识别器进行调节。

步骤208:重新调节所述连锁品牌词识别器,返回步骤205;

例如,可以修改在训练识别器时所提取的识别特征;再例如,也可以修改在提取识别特征时所采用的一些系数,如,修改在计算空间分布距离时为了实现归一化所采用的归一化系数;或者,修改在计算空间分布熵时划分的区域个数,如将3*3改为4*4。

除此之外,也可以修改识别器中各个识别特征的权重系数,或者,修改在区分连锁品牌词和非连锁品牌词时所采用的分类临界线值,如,将1.5改为1.6或1.7。

在返回到步骤205后,是利用调节后的所述连锁品牌词识别器对所述检验数据的名称主干进行识别,识别出是连锁品牌词的名称主干。

步骤209:利用所述连锁品牌词识别器对所有POI数据组对应的名称主干中未识别的名称主干进行识别;

步骤210:将所述是连锁品牌词的名称主干存储在预置的连锁品牌词词库中。

上述步骤209-210的具体实现过程可参见实施例一,此次不再赘述。

由上述实施例可以看出,与现有技术相比,本发明的优点在于:

提供了基于一个POI数据库中的所有POI数据及从POI数据中提取的识别特征训练连锁品牌词识别器的方法,利用连锁品牌词识别器自动从POI数据库的所有POI数据中识别出是连锁品牌词的名称主干,基于识别出是连锁品牌词的名称主干建立一个连锁品牌词词库。这种自动识别方式不仅提高了工作效率,而且,还可以通过定时对POI数据库中所有POI数据的名称主干进行识别方式,实现及时更新词库。并且,在训练得到连锁品牌词识别器之后,还抽取名称主干已被标记为连锁品牌词和非连锁品牌词的检验数据对连锁品牌词识别器作进一步的检验,在检验不合格时对该连锁品牌词识别器进行调节,确保了连锁品牌词识别器对POI数据组的名称主干进行识别的准确性和有效性。

实施例三

前两个实施例都是从POI数据库中挖掘连锁品牌词,由于POI数据库中的数据采用的都是术语,因此,挖掘出的连锁品牌词基本上都是规范化名称,这与用户的使用习惯可能并不相符。例如,某连锁药房的规范化名称是“**大药房”,而用户可能习惯称为“**药房”,如果用户输入的查询词为“**药房”,就会得出查询词不是连锁品牌词的错误结果。另外,由于POI数据的名称很少是一个类别词,因此,也很难从POI数据库中挖掘出类别词。

本实施例基于用户查询日志中记录的查询词和与查询词对应的被点击的POI数据训练可识别连锁品牌词、类别词和普通词的识别器,利用该识别器对用户查询日志中记录的所有查询词进行识别,并从识别结果中筛选出是连锁品牌词和类别词的查询词,分别建立连锁品牌词词库和类别词词库。请参阅图3,其为本发明一种连锁品牌词词库和类别词词库建立方法的流程图,该方法包括以下步骤:

步骤301:从用户查询日志中,获取不同用户在同一城市通过相同的查询词查询得到的POI数据(即被用户点击的POI数据),将获取到的POI数据聚合成一个POI数据组,所述POI数据组与所述查询词对应;

在进行路径导航时,导航引擎会记录下用户向导航引擎输入的查询词,以及对于导航引擎反馈的搜索结果,被用户点击过的POI数据,并将其保存在用户查询日志中。导航引擎可以从用户查询日志中获取查询词以及与该查询词对应的所有被点击的POI数据,并将与每个查询词对应的POI数据进行聚合,得到POI数据组。显然,一个POI数据组包含一个或多个POI数据,且这些POI数据都是被点击过的POI数据,并且,每一个POI数据组对应一个查询词。

步骤302:从各个POI数据组中提取与所述POI数据组的识别特征;

所述识别特征为用于识别所述POI数据组对应的查询词为连锁品牌词、类别词和普通词的参数。

步骤303:从所有POI数据组中抽取出查询词已被标记为连锁品牌词、类别词和普通词的POI数据组作为训练数据,基于所述训练数据的识别特征进行识别器的训练;

假设,基于一个用户查询日志共聚合成1000个POI数据组,从1000个POI数据组中抽取100个查询词已被标记为连锁品牌词、类别词和普通词的POI数据组作为训练数据。对于首次建立词库来说,这100个POI数据组对应的查询词可以是在建立词库之前预先由人工识别并标记的。对于词库更新来说,这100个POI数据组对应的查询词可以是预先由人工识别并标记的,也可以是在之前建立词库时由识别器识别并标记的。

需要说明的是,本发明技术方案对训练数据中的POI数据组的个数不做限定。当然,抽取的训练数据越多,训练出的识别器越准确。在具体操作时,可以根据对识别器准确性的要求,抽取适量的训练数据训练识别器。

以从1000个POI数据组中抽取出100个POI数据组作为训练数据为例,这100个POI数据组各自对应的查询词已被标记为连锁品牌词、类别词或普通词(所谓的“普通词”就是除连锁品牌词和类别词之外的其它所有词),如,当为类别词时,将其标记为1,当为连锁品牌词时,将其标记为2,当为普通词时,将其标记为0,共产生100个标记结果(1或2或0),显然,所标记出的每个标记结果都为准确的结果。然后再从这100个POI数据组中分别抽取相同的识别特征,共产生100组识别特征,每一组所提取的识别特征都是相同的,如,每一组提取的识别特征都是:POI数据组的点击个数、POI数据组的点击分布熵。显然,从每一个POI数据组抽取的识别特征越多,训练出的识别器就越准确。

POI数据组的识别特征为以下任意一个或者任意多个组合:

POI数据组中POI数据的个数;POI数据组的点击分布熵;POI数据组中POI数据的类别个数;POI数据组的按类点击分布熵;空间分布距离;空间分布熵;出现同一查询词的城市的个数;POI数据组中名称带有分店标志的POI数据的比率;POI数据组中名称带有门标志POI数据的比率;POI数据被点击比率,其中所述POI数据被点击比率等于M除以N,其中M为对POI数据组中的POI数据的名称进行名称主干的提取所得到的名称主干的数量,N为POI数据组中的POI数据的数量。

下面,以用户在北京查询“家具建材”,在用户查询日志中记录有421个与查询词“家具建材”对应的被点击POI数据为例,详细说明如何从由421个被点击POI数据所组成的POI数据组中提取识别特征。

(1)POI数据组的点击个数

被点击POI数据的个数为421个,将其进行归一化处理:log(421)/6=1.007,强行置为1。

(2)POI数据组的点击分布熵

先分别统计各被点击POI数据的点击次数的概率:统计上述421个被点击POI数据的被点击总次数为985次,各被点击POI数据的点击次数举例如下:爱家家居(西四环商城店):3次,北京市朝阳区光华建材综合商场:5次…,

计算各POI数据的被点击概率:爱家家居(西四环商城店)3/985,北京市朝阳区光华建材综合商场:5/985…

再计算各被点击POI数据的点击次数的概率的熵值,如,采用求熵公式Sum[-P*log2(P)]/log2(N)计算熵值,计算结果为0.924,其中,“Sum”表示求和,“P”表示被点击POI数据的点击次数的概率,“N”表示被点击POI数据的个数。

(3)POI数据组中POI数据的类别个数

上述421个被点击POI数据分别归属于7个不同的类别,如,类别为三级类别中的家具建材综合市场,或为建材五金市场。将该个数进行归一化处理:7/20=0.35。

(4)POI数据组的按类点击分布熵

先分别统计被点击POI数据在归属的各类别中的被点击次数的概率,如,在上述7个类别中,POI数据的被点击次数分别为{42,108,136,634,22,17,26},得到的概率分别为{42/985,108/985,136/985,634/985,22/985,17/985,26/985}。

再计算被点击POI数据在归属的各类别中的点击次数的概率的熵值,将计算得到的熵值进行归一化处理,得到POI数据组的按类点击分布熵,如,采用求熵公式Sum[-P*log2(P)]/log2(N)计算熵值,计算结果为0.609,其中,“Sum”表示求和,“P”表示被点击POI数据在归属的各最小子类中的点击次数的概率,“N”表示被点击POI数据的点击次数。

(5)空间分布距离

先确定一个POI数据组中POI数据构成的最小分布矩形,再选择该最小分布矩形的最长边,将该最长边进行归一化处理,得到被点击POI数据的空间分布距离。

其中,确定最小分布矩形的方式与实施例一中提取的空间分布距离时采用的方式相同。具体的方法可参见实施例一,此次不再赘述。

(6)空间分布熵

先确定一个POI数据组中所有POI数据构成的最小分布矩形,再将该最小分布矩形拆分成多个区域,分别统计各POI数据在每个区域中的分布概率,最后计算POI数据在每个区域中的分布概率的熵值,将计算得到的熵值进行归一化处理,得到空间分布熵,计算该空间分布熵的方法可参见实施例一,在此不再赘述。

(7)出现同一查询词的城市的个数

根据用户查询日志的记载,用户在326个城市范围内都查询过“家具建材”,即,该查询词在326个城市中出现过,对该数值进行归一化处理326/360=0.905。

需要说明的是,这里所指的城市为县级以上城市。

(8)POI数据组中名称带有分店标志的POI数据的比率

该识别特征的提取方式与实施例一中的提取方式相同,具体的方法可参见实施例一,此次不再赘述。

(9)POI数据组中名称带有门标志POI数据的比率

该识别特征的提取方式与实施例一中的提取方式相同,具体的方式可参见实施例一,此次不再赘述。

(10)POI数据被点击比率

其中,所述POI数据被点击比率等于M除以N,其中M为对POI数据组中的POI数据的名称进行名称主干的提取所得到的名称主干的数量,N为POI数据组中的POI数据的数量。如,POI数据组中包含421个POI数据,在421个POI数据中,有一些POI数据的名称虽然不一样,但是其名称主干是一样的,如该421个POI数据中有3个POI数据的名称为“肯德基-望京店”、“肯德基-马甸店”、“肯德基(安贞店)”,则提取该3个POI数据的名称的名称主干,得到1个名称主干“肯德基”,依此,对该421个POI数据的名称进行名称主干的提取,得到389个名称主干,则POI数据被点击率为:389/421=0.926。

除了可以提取上述识别特征之外,还可以提取以下两个识别特征中的任意一个或者同时提取以下两个识别特征:POI数据组中命中连锁品牌词的点击次数的比率和POI数据组中命中且名称不重复的连锁品牌词的个数。

例如,421个POI数据的总点击次数为985,其中有201次点击到的POI数据的名称主干为连锁品牌词词库中的连锁品牌词,即,有201次点击命中了连锁品牌词,POI数据组中命中连锁品牌词的点击次数的比率为201/985=0.204。

其中,连锁品牌词词库为通过实施例一中的方式而建立的连锁品牌词词库。因此,当训练识别器时需要提取该识别特征时,需要在执行本实施例的方案之前,先执行实施例一中的方案,从而先得到一个连锁品牌词词库。

而在201次点击所命中的连锁品牌词中,名称不重复的连锁品牌词的个数为64个,对该数值进行归一化处理,得到64/50=1.28,强置为1。

同样,将标记结果和提取的识别特征输入到训练模块,通过训练可以得到识别器。

该识别器包括第一识别器、第二识别器和第三识别器,基于所述训练数据的识别特征进行识别器的训练,具体包括:

1)基于训练数据中查询词标记为连锁品牌词的POI数据组与查询词标记为类别词的POI数据组的识别特征进行第一识别器的训练,得到用于根据POI数据组的识别特征识别出POI数据组的查询词为疑似类别词和疑似连锁品牌词的第一识别器;

2)基于训练数据中查询词标记为连锁品牌词的POI数据组与查询词标记为普通词的POI数据组的识别特征进行第二识别器的训练,得到用于根据POI数据组的识别特征识别出POI数据组的查询词为连锁品牌词和普通词的第二识别器;

3)基于训练数据中查询词标记为类别词的POI数据组与查询词标记为普通词的POI数据组的识别特征进行第三识别器的训练,得到用于根据POI数据组的识别特征识别出POI数据组的查询词为分类词和普通词的第三识别器。

至此,识别器训练完毕,每个识别器对查询词识别后输出的结果为一个数值,当该数值为0是,表示查询词为普通词的几率大,当该数值接近1时,表示查询词为类别词的几率,但该数值接近2时,表示查询词为连锁品牌词的几率大。

步骤304:利用训练后的识别器对所有POI数据组对应的查询词中未识别的查询词进行识别,识别出是连锁品牌词和类别词的查询词;

利用训练后的识别器对所有POI数据组对应的查询词中未识别的查询词进行识别,识别出是连锁品牌词和类别词的查询词,具体包括:

1)将未识别的查询词对应的POI数据组的识别特征输入到所述第一识别器中,从所述第一识别器输出所述POI数据组对应的查询词为疑似连锁品牌词或疑似类别词的第一识别结果;

2)将所述第一识别结果中疑似连锁品牌词的查询词对应的POI数据组的识别特征输入到所述第二识别器中,所述第二识别器输出所述POI数据组对应的查询词为普通词或连锁品牌词的第二识别结果;

3)将所述第一识别结果中疑似类别词的查询词对应的所述POI数据组的识别特征输入到所述第三识别器中,所述第三识别器输出所述POI数据组的查询词为普通词或类别词的第三识别结果;

4)从所述第二识别结果和第三识别结果中提取出连锁品牌词和类别词。

在具体操作时,第一识别器、第二识别器和第三识别器均可以为线性分类器,该线性分类器均可采用前述式(1)的公式,区别点在于,各个识别器的识别特征的权重系数、常数项可能会有所不同,各个识别器的识别特征的权重系数和常数项的取值根据对该识别器进行训练的训练数据得到。

步骤305:将所述是连锁品牌词的查询词存储在预置的连锁品牌词词库中,以及将所述是类别词的查询词存储在预置的类别词词库中。

在建立了关于类别词和连锁品牌词的词库后,可以将本实施例建立的连锁品牌词词库与实施例一中建立的连锁品牌词词库进行汇总,从而建立一个总的连锁品牌词词库。

另外,类别词和连锁品牌词的词库同样要应用在导航引擎的搜索策略和搜索结果排序中。如,当导航引擎判断查询词是一个类别词或者是一个连锁品牌词时,导航引擎搜索与该查询词匹配的POI数据的搜索方法以及对搜索结果的排序方法与查询词为普通词时,导航引擎所采用的搜索方法和排序方法不同。如当导航引擎判断出用户输入的查询词为类别词(即查询词与类别词词库匹配时判断该查询词为类别词)时,说明用户需要搜索的应该是某一种类别的POI,因此导航引擎采取的搜索方法是根据用户输入的类别词,从POI数据库中筛选出与该类别词匹配的POI,并在展示查询结果时按照POI距离用户位置由近到远的顺序展示;而当导航引擎判断出用户输入的查询词为连锁品牌词(即查询词与连锁品牌词词库匹配时判断该查询词为连锁品牌词)时,由于连锁品牌机构在地理上来说分布较为均匀,说明用户需要搜索的应该是距离当前位置较近的连锁品牌机构,因此导航引擎采取的搜索方法是搜索用户位置周边一定范围内的与连锁品牌词匹配的POI,并且在展示检索结果时,按照POI距离用户位置由近到远的顺序展示。

由上述实施例可以看出,与现有技术相比,本发明的优点在于:

提供了基于用户查询日志获取的与查询词对应的POI数据及从POI数据中提取的识别特征训练识别器的方法,利用该识别器自动从获取的所有POI数据对应的查询词中识别出是连锁品牌词的查询词,基于识别出是连锁品牌词的查询词建立一个连锁品牌词词库。这种自动识别方式不仅提高了工作效率,而且,还可以通过定时对基于用户查询日志获取的所有POI数据对应的查询词进行识别方式,实现及时更新词库。

实施例四

本实施例四与实施例三的区别在于,在获得分类器后,还可以进一步对识别器的识别准确性进行检验,如果经检验其识别准确性不符合要求,对该识别器进行调节,然后再进行一次检验,不断重复校验和调节,直到识别器的识别准确性符合要求为止。如图4所示,其为本发明另一种连锁品牌词词库和类别词词库的建立方法的流程图,该方法包括以下步骤:

步骤401:从用户查询日志中,获取不同用户在同一城市通过相同的查询词查询得到的POI数据,将获取到的POI数据聚合成一个POI数据组,所述POI数据组与所述查询词对应;

步骤402:从各个POI数据组中提取与所述POI数据组的识别特征;

所述识别特征为用于识别所述POI数据组对应的查询词为连锁品牌词、类别词和普通词的参数。

步骤403:从所有POI数据组中抽取出查询词已被标记为连锁品牌词、类别词和普通词的POI数据组作为训练数据,基于所述训练数据的识别特征进行识别器的训练;

上述步骤401-403的具体执行过程可以参见实施例三,本实施例对此不再赘述。以下为检查过程:

步骤404:从所有POI数据组中抽取查询词已被标记为连锁品牌词、类别词和普通词的POI数据组作为检验数据,所述检验数据和所述训练数据为不同的数据;

具体的抽取方式可以参见实施例二中的说明,此次不再赘述。

步骤405:利用所述识别器对所述检验数据的查询词进行识别,识别出是连锁品牌词的查询词和是类别词的查询词;

具体的标记方式可以参见实施例二中的说明,此次不再赘述。

步骤406:根据所述识别器对所述检验数据的识别结果,计算所述识别器对连锁品牌词的识别准确率和/或识别召回率,以及计算所述识别器对类别词的识别准确率和/或识别召回率;

其中:连锁品牌词/类别词的识别准确率等于所述识别结果中是准确的连锁品牌词/类别词的查询词的数量除以所述识别结果中识别出的是连锁品牌词/类别词的查询词的数量,所述连锁品牌词/类别词的识别召回率等于所述识别结果中是准确的连锁品牌词/类别词的查询词数量除以已被标记为连锁品牌词/类别词的查询词的数量,所述准确的连锁品牌词/类别词的查询词是既被标记为连锁品牌词/类别词又被识别为连锁品牌词/类别词的查询词。

其中,关于连锁品牌词,有三种可能:只计算识别准确率,只计算识别召回率,同时计算识别准确率和识别召回率。同样,关于类别词,也有三种可能:只计算识别准确率、只计算识别召回了,同时计算识别准确率和识别召回率。

步骤407:判断所述连锁品牌词的识别准确率和/或识别召回率是否大于或等于各自对应的阈值,以及判断所述类别词的识别准确率和/或识别召回率是否大于或等于各自对应的阈值,如果所述连锁品牌词的识别准确率和/或识别召回率小于各自对应的阈值,或者,所述类别词的识别准确率和/或识别召回率小于各自对应的阈值,进入步骤408,否则,进入步骤409;

步骤408:重新调节所述识别器,返回步骤405;

例如,可以修改在训练识别器时所提取的识别特征;再例如,也可以修改在提取识别特征时所采用的一些系数,如,修改在计算POI数据组中POI数据的个数时为了实现归一化所采用的归一化系数;或者,修改在计算空间分布熵时划分的区域个数,如将3*3改为4*4。

除此之外,也可以修改识别器中各个识别特征的权重系数,或者,修改在区分普通词、连锁品牌词和类别词时所采用的分类临界线值。

步骤409:利用训练后的识别器对所有POI数据组对应的查询词中未识别的查询词进行识别,识别出是连锁品牌词和类别词的查询词;

步骤410:将所述是连锁品牌词的查询词存储在预置的连锁品牌词词库中,以及将所述是类别词的查询词存储在预置的类别词词库中。

上述步骤409-410的具体实现过程可参见实施例三,此次不再赘述。

由上述实施例可以看出,与现有技术相比,本发明的优点在于:

提供了基于用户查询日志获取的与查询词对应的POI数据及从POI数据中提取的识别特征训练识别器的方法,利用该识别器自动从获取的所有POI数据对应的查询词中识别出是连锁品牌词的查询词,基于识别出是连锁品牌词的查询词建立一个连锁品牌词词库。这种自动识别方式不仅提高了工作效率,而且,还可以通过定时对基于用户查询日志获取的所有POI数据对应的查询词进行识别方式,实现及时更新词库。另外,在训练得到识别器之后,还抽取名称主干已被标记为连锁品牌词、类别词和普通词的检验数据对识别器作进一步的检验,在检验不合格时对该识别器进行调节,确保了识别器对POI数据组的名称主干进行识别的准确性和有效性。

实施例五

与上述一种连锁品牌词词库建立方法相对应,本发明实施例还提供了一种连锁品牌词词库建立装置。请参阅图5,其为本发明一种连锁品牌词词库建立装置的一个实施例结构图,该装置包括:第一聚合单元501、第一特征提取单元502、第一训练单元503、第一识别单元504和第一词库建立单元505。下面结合该装置的工作原理进一步介绍其内部结构以及连接关系。

第一聚合单元501,用于将同一城市POI数据库中名称主干相同的POI数据聚合成一个POI数据组,所述POI数据组与所述名称主干对应;

第一特征提取单元502,用于从各个POI数据组中提取所述POI数据组的识别特征;

第一训练单元503,用于从所有POI数据组中抽取出名称主干已被标记为连锁品牌词和非连锁品牌词的POI数据组作为训练数据,基于所述训练数据的识别特征进行连锁品牌词识别器的训练;

第一识别单元504,用于利用训练后的所述连锁品牌词识别器对所有POI数据组对应的名称主干中未识别的名称主干进行识别,识别出是连锁品牌词的名称主干;

第一词库建立单元505,用于将所述是连锁品牌词的名称主干存储在预置的连锁品牌词词库中。

优选的,如图6所示,该装置还包括:第一抽取单元506、第二识别单元507、第一计算单元508、第一判断单元509和第一调节单元510,其中,

第一抽取单元506,用于在所述第一识别单元504利用训练后的所述连锁品牌词识别器对所有POI数据组对应的名称主干中未识别的名称主干进行识别之前,从所有POI数据组中抽取出名称主干已被标记为连锁品牌词和非连锁品牌词的POI数据组作为检验数据,所述检验数据和所述训练数据为不同的数据;

第二识别单元507,用于利用所述连锁品牌词识别器对所述检验数据的名称主干进行识别,识别出是连锁品牌词的名称主干;

第一计算单元508,用于根据所述连锁品牌词识别器对所述检验数据的识别结果,计算所述连锁品牌词识别器对连锁品牌词的识别准确率和/或识别召回率,其中,所述识别准确率等于所述识别结果中是准确的连锁品牌词的名称主干的数量除以所述识别结果中识别出的是连锁品牌词的名称主干的数量,所述召回率等于所述识别结果中是准确的连锁品牌词的名称主干的数量除以所述检验数据中已被标记为连锁品牌词的名称主干的数量,所述准确的连锁品牌词的名称主干是既被标记为连锁品牌词又被识别为连锁品牌词的名称主干;

第一判断单元509,用于判断所述识别准确率和/或识别召回率是否大于或等于各自对应的阈值;

第一调节单元510,用于若所述第一判断单元509的判断结果为否,则调节所述连锁品牌词识别器,利用调节后的所述连锁品牌词识别器触发所述第二识别单元507、所述第一计算单元508和所述第一判断单元509重新工作;

则所述第一识别单元504具体用于,利用调节后的所述连锁品牌词识别器对所有POI数据组对应的名称主干中未识别的名称主干进行识别。

优选的,所述连锁品牌词识别器为线性分类器,所述线性分类器为:

>y=Σ(Wi×Xi)+b>

其中,Wi为第i个识别特征的权重系数,Xi为第i个识别特征的值,b为常数项,当y大于或等于预设阈值则识别所述POI数组对应的名称主干为连锁品牌词,当y小于所述预设阈值则识别所述POI数据组对应的名称主干为非连锁品牌词。

POI数据组的识别特征为以下任意一个或任意多个组合:

空间分布距离;空间分布熵;POI数据组中名称带有分店标志的POI数据的比率;POI数据组中名称带有门标志的POI数据的比率;POI数据组的类别分值,所述类别分值是指将所述POI数据组中类别相同的POI数据聚合成一个数据组,包含POI数据最多的数据组的类别对应的预置分值,所述预置分值是根据预置的所述类别出现连锁品牌机构的先验概率得到,所述先验概率等于N/M,其中M为所述训练数据中标记为连锁品牌词的名称主干所对应的POI数据的数量,N为所述M个POI数据中与所述包含POI数据最多的数据组的类别相同的POI数据的数量。

由上述实施例可以看出,与现有技术相比,本发明的优点在于:

提供了基于一个POI数据库中的所有POI数据及从POI数据中提取的识别特征训练连锁品牌词识别器的装置,利用连锁品牌词识别器自动从POI数据库的所有POI数据中识别出是连锁品牌词的名称主干,基于识别出是连锁品牌词的名称主干建立一个连锁品牌词词库。这种自动识别方式不仅提高了工作效率,而且,还可以通过定时对POI数据库中所有POI数据的名称主干进行识别方式,实现及时更新词库。

实施例六

与上述一种连锁品牌词词库和类别词词库建立方法相对应,本发明实施例还提供了一种连锁品牌词词库和类别词词库建立装置。请参阅图7,其为本发明一种连锁品牌词词库和类别词词库建立装置的一个实施例结构图,该装置包括:第二聚合单元701、第二特征提取单元702、第二训练单元703、第三识别单元704和第二词库建立单元705。下面结合该装置的工作原理进一步介绍其内部结构以及连接关系。

第二聚合单元701,用于从用户查询日志中,获取不同用户在同一城市通过相同的查询词查询得到的POI数据,将获取到的POI数据聚合成一个POI数据组,所述POI数据组与所述查询词对应;

第二特征提取单元702,用于从各个POI数据组中提取与所述POI数据组的识别特征;

第二训练单元703,用于从所有POI数据组中抽取出查询词已被标记为连锁品牌词、类别词和普通词的POI数据组作为训练数据,基于所述训练数据的识别特征进行识别器的训练;

第三识别单元704,用于利用训练后的识别器对所有POI数据组对应的查询词中未识别的查询词进行识别,识别出是连锁品牌词和类别词的查询词;

第二词库建立单元705,用于将所述是连锁品牌词的查询词存储在预置的连锁品牌词词库中,以及将所述是类别词的查询词存储在预置的类别词词库中。

优选的,如图8所示,该装置还包括:第二抽取单元706、第四识别单元707、第二计算单元708、第二判断单元709和第二调节单元710,其中,

第二抽取单元706,用于在所述第三识别单元704用训练后的识别器对所有POI数据组对应的查询词中未识别的查询词进行识别之前,从所有POI数据组中抽取查询词已被标记为连锁品牌词、类别词和普通词的POI数据组作为检验数据,所述检验数据和所述训练数据为不同的数据;

第四识别单元707,用于利用所述识别器对所述检验数据的查询词进行识别,识别出是连锁品牌词的查询词和是类别词的查询词;

第二计算单元708,用于根据所述识别器对所述检验数据的识别结果,计算所述识别器对连锁品牌词的识别准确率和/或识别召回率,以及计算所述识别器对类别词的识别准确率和/或识别召回率,其中:连锁品牌词/类别词的识别准确率等于所述识别结果中是准确的连锁品牌词/类别词的查询词的数量除以所述识别结果中识别出是连锁品牌词/类别词的查询词的数量,所述连锁品牌词/类别词的识别召回率等于所述识别结果中是准确的连锁品牌词/类别词的查询词数量除以已被标记为连锁品牌词/类别词的查询词的数量,所述准确的连锁品牌词/类别词的查询词是既被标记为连锁品牌词/类别词又被识别为连锁品牌词/类别词的查询词;

第二判断单元709,用于判断所述连锁品牌词的识别准确率和/或识别召回率是否大于或等于各自对应的阈值,以及判断所述类别词的识别准确率和/或识别召回率是否大于或等于各自对应的阈值;

第二调节单元710,用于若所述连锁品牌词的识别准确率和/或识别召回率小于各自对应的阈值,或者,所述类别词的识别准确率和/或识别召回率小于各自对应的阈值,则调节所述识别器,利用调节后的所述识别器触发所述第四识别单元707、所述第二计算单元708和第二判断单元709重新工作;

则所述第三识别单元704具体用于,利用调节后的所述识别器对所有POI数据组对应的查询词中未识别的查询词进行识别。

优选的,所述识别器包括第一识别器、第二识别器和第三识别器,所述第二训练单元703包括:

第一识别器训练子单元,用于基于训练数据中查询词标记为连锁品牌词的POI数据组与查询词标记为类别词的POI数据组的识别特征进行第一识别器的训练,得到用于根据POI数据组的识别特征识别出POI数据组的查询词为疑似类别词和疑似连锁品牌词的第一识别器;

第二识别器训练子单元,用于基于训练数据中查询词标记为连锁品牌词的POI数据组与查询词标记为普通词的POI数据组的识别特征进行第二识别器的训练,得到用于根据POI数据组的识别特征识别出POI数据组的查询词为连锁品牌词和普通词的第二识别器;

第三识别器训练子单元,用于基于训练数据中查询词标记为类别词的POI数据组与查询词标记为普通词的POI数据组的识别特征进行第三识别器的训练,得到用于根据POI数据组的识别特征识别出POI数据组的查询词为分类词和普通词的第三识别器。

优选的,所述第三识别单元704包括:

第一识别结果确定子单元,用于将未识别的查询词对应的POI数据组的识别特征输入到所述第一识别器中,从所述第一识别器输出所述POI数据组对应的查询词为疑似连锁品牌词或疑似类别词的第一识别结果;

第二识别结果确定子单元,用于将所述第一识别结果中疑似连锁品牌词的查询词对应的POI数据组的识别特征输入到所述第二识别器中,所述第二识别器输出所述POI数据组对应的查询词为普通词或连锁品牌词的第二识别结果;

第三识别结果确定子单元,用于将所述第一识别结果中疑似类别词的查询词对应的所述POI数据组的识别特征输入到所述第三识别器中,所述第三识别器输出所述POI数据组的查询词为普通词或类别词的第三识别结果;

连锁品牌词/类别词提取子单元,用于从所述第二识别结果和第三识别结果中提取出连锁品牌词和类别词。

优选的,POI数据组的识别特征为以下任意一个或者任意多个组合:

POI数据组中POI数据的个数;POI数据组的点击分布熵;POI数据组中POI数据的类别个数;POI数据组的按类点击分布熵;空间分布距离;空间分布熵;出现同一查询词的城市的个数;POI数据组中名称带有分店标志的POI数据的比率;POI数据组中名称带有门标志POI数据的比率;POI数据被点击比率,其中所述POI数据被点击比率等于M除以N,其中M为对POI数据组中的POI数据的名称进行名称主干的提取所得到的名称主干的数量,N为POI数据组中的POI数据的数量。

由上述实施例可以看出,与现有技术相比,本发明的优点在于:

提供了基于一个POI数据库中的所有POI数据及从POI数据中提取的识别特征训练连锁品牌词识别器的方法,利用连锁品牌词识别器自动从POI数据库的所有POI数据中识别出是连锁品牌词的名称主干,基于识别出是连锁品牌词的名称主干建立一个连锁品牌词词库。这种自动识别方式不仅提高了工作效率,而且,还可以通过定时对POI数据库中所有POI数据的名称主干进行识别方式,实现及时更新词库。

需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。

以上对本发明所提供的一种连锁品牌词和类别词的建立方法和装置进行了详细介绍,本文中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号