首页> 中国专利> 地址树构建方法、地址规划规范方法、装置和电子设备

地址树构建方法、地址规划规范方法、装置和电子设备

摘要

本申请提供了一种地址树构建方法、地址规范方法、装置和电子设备,其中,地址树构建方法包括:获取地址数据;按照行政级别解析所述地址数据;基于hashmap按照行政级别对所述行政区划数据进行层叠多重嵌套,得到地址树。利用基础数据结构HashMap,以键值对的形式存放数据,存储各级别地址数据,通过将解析后的地址数据按照行政级别一级一级的嵌套HashMap,最后得到基于全国行政区划数据和地址别名数据的多重嵌套HashMap中文地址树结果集合。利用多重HashMap进行多重嵌套,得到各级别地址以及能够纠正地址别名的地址树提高了中文地址树的存储范围,对于地址的查询能力从前三级地址拓展到任意乡,街道等较为细致的地址级别,有利于快速定位地址。

著录项

  • 公开/公告号CN112749169A

    专利类型发明专利

  • 公开/公告日2021-05-04

    原文格式PDF

  • 申请/专利权人 北京明略昭辉科技有限公司;

    申请/专利号CN202110076721.0

  • 发明设计人 虞开稳;

    申请日2021-01-20

  • 分类号G06F16/22(20190101);G06F16/245(20190101);G06F16/29(20190101);

  • 代理机构11662 北京华夏泰和知识产权代理有限公司;

  • 代理人蔡良伟;沈园园

  • 地址 100098 北京市海淀区北三环西路25号27号楼二层2020室

  • 入库时间 2023-06-19 10:51:07

说明书

技术领域

本申请涉及互联网技术领域,尤其涉及一种地址树构建方法、地址规范方法、装置和电子设备。

背景技术

随着数字化城市的发展和物流配送行业的升级换代,越来越多的服务需要在明确且有效的地址上进行。且基于经纬度的地理信息数据来源广,数据质量参差不齐,由于全国地名较多且各种地名的叫法较为多样,尤其各种乡镇道路的叫法没有具体的乡、镇或者道路等明显标识关键字,给银行、快递等行业在业务开展的过程中造成很多的不便。

因此,如何将地址规范化成为亟待解决的技术问题。

发明内容

本申请提供了一种地址树构建方法、地址规范方法、装置和电子设备,以至少解决相关技术中存在的如何将地址规范化的技术问题。

根据本申请实施例的一个方面,提供了一种地址树构建方法,包括:获取地址数据;按照行政级别解析所述地址数据;基于hashmap 按照行政级别对所述行政区划数据进行层叠多重嵌套,得到地址树。

可选地,所述基于hashmap按照行政级别对所述地址数据进行层叠多重嵌套,得到地址树包括:依次将上一行政级别的地址数据作为所述上一行政级别地址数据下辖的下一行政级别的键信息,将下一行政级别的地址数据作为上一行政级别的地址数据的值信息;将同一行政级别的键信息进行平行拼接得到所述地址树。

可选地,所述地址数据包括行政区划数据和地址别名数据;所述按照行政级别解析所述地址数据包括:对所述地址数据进行行政级别划分;将具有上下级行政级别的地址数据以键值对的形势进行存储,其中,在所述键值对中每一行政级别的数据地址包括当前地址数据对应的行政区划数据和地址别名数据。

根据本申请实施例的另一个方面,提供了一种地址规范方法,包括:获取上述实施例中任一项所述的地址树构建方法构建地址树;获取待规范地址数据;基于所述地址树对待规范地址数据进行规范化处理,得到规范地址。

可选地,所述对所述地址树中的地址进行规范化处理包括:基于模式匹配算法得到所述待规范地址数据中的基础地址数据;基于所述地址树对所述基础地址数据进行最大正向匹配,得到所述基础地址数据中的上N级地址数据,其中,N为大于或等于1的正整数;基于地址补充算法对上N级地址数据进行补充。

可选地,所述基于地址补充算法对上N级地址数据进行补充包括:对所述基础地址数据进行分词;按照所述地址树的行政级别的级数依次进行匹配;在匹配到非最高级别的地址数据时,按照所述地址树中的地址行政级别依次补充当前匹配到的额地址数据的上级地址数据。

可选地,所述待规范地址数据包括行政区划数据和所述行政区划数据对应的地址简称数据和/或地址别名数据;所述基于所述地址树对待规范地址数据进行规范化处理还包括:将所述地址简称数据和/或地址别名数据根据所述行政区划数据进行规范化处理;检测规范后的地址数据中重复的地址元素;依据重读的地址元素对所述规范后的地址数据去重。

根据本申请实施例的另一个方面,还提供了一种地址树构建装置,包括:获取模块,用于获取地址数据;解析模块,用于按照行政级别解析所述地址数据;构建模块,用于基于hashmap按照行政级别对所述行政区划数据进行层叠多重嵌套,得到地址树。

根据本申请实施例的又一个方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;其中,存储器,用于存储计算机程序;处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行上述任一实施例中的方法步骤。

根据本申请实施例的又一个方面,还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一实施例中的方法步骤。

在本申请实施例中,获取地址数据后,通过解析全国行政区划数据和地址别名数据,利用基础数据结构HashMap,以键值对的形式存放数据,存储各级别地址数据,通过将解析后的地址数据按照行政级别一级一级的嵌套HashMap,最后得到基于全国行政区划数据和地址别名数据的多重嵌套HashMap中文地址树结果集合。利用多重 HashMap进行多重嵌套,得到各级别地址以及能够纠正地址别名的地址树提高了中文地址树的存储范围,对于地址的查询能力从前三级地址拓展到任意乡,街道等较为细致的地址级别,有利于快速定位地址。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种可选的地址树构建的硬件环境的示意图;

图2是根据本申请实施例的一种可选的地址树构建的流程示意图;

图3是根据本申请实施例的地址树逻辑示意图;

图4是根据本申请实施例的地址规范方法的流程示意图;

图5是根据本申请实施例的地址树构建装置的结构框架示意图;

图6是根据本申请实施例的一种可选的电子设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

目前的处理方法都是从地址数据中开始构建地址树,从原始地址树中具有相同父节点的每组地址进行排序并调整得到第二地址树;获取所述兄弟节点名称的前缀作为一个新节点的名称,将该新节点插入到所述的第二地址树中,并调整具有所述相同的节点名称前缀的所述兄弟节点的名称,得到第三地址树,最后得到一个维护的地址要素关系表;或者从常用词词库、道路数据库,兴趣点数据库、关键字数据库等各种数据库中获得已经存在的地址数据特征,在各种处理模块中进行比对纠正地址数据。

上述的各种方法存在几种问题:1.中文地址树处理能力有限。只能处理到前三级地址(前三级地址是省-市-县/区),在具体的业务中真实地址往往是从快递单上通过扫描获取或在电子单中由客户填写(一般的电子单中地址的前三级地址可供选择,后边的详细地址只能手动填写),其地址的复杂关键信息往往在前三级地址之后;2.缺乏对全国地址的规范化方法,很多处理方法都很难处理到具体的村,道路,街道甚至是小区等级别的地址,进而对具有各种错误表达方式的地址难以纠错。

根据本申请实施例的一个方面,提供了一种地址树构建方法。可选地,在本实施例中,上述地址树构建方法可以应用于如图1所示的硬件环境中。

根据本申请实施例的一个方面,提供了一种地址树构建方法。可选地,在本实施例中,上述地址树构建方法可以应用于如图1所示的由终端102和服务器104所构成的硬件环境中。如图1所示,服务器 104通过网络与终端102进行连接,可用于为终端或终端上安装的客户端提供服务,可在服务器上或独立于服务器设置数据库,用于为服务器104提供数据存储服务,还可以用于处理云服务,上述网络包括但不限于:广域网、城域网或局域网,终端102并不限定于PC、手机、平板电脑等。本申请实施例的地址树构建方法可以由服务器104来执行,也可以由终端102来执行,还可以是由服务器104和终端102共同执行。其中,终端102执行本申请实施例的地址树构建方法也可以是由安装在其上的客户端来执行。

以由终端102和/或服务器104来执行本实施例中的地址树构建方法为例,图2是根据本申请实施例的一种可选的地址树构建方法的流程示意图,如图2所示,该方法的流程可以包括以下步骤:

步骤S202,获取地址数据;

步骤S204,按照行政级别解析所述地址数据;

步骤S206,基于hashmap按照行政级别对所述行政区划数据进行层叠多重嵌套,得到地址树。

通过上述步骤S202至步骤S206,获取地址数据后,通过解析全国行政区划数据和地址别名数据,利用基础数据结构HashMap,以键值对的形式存放数据,存储各级别地址数据,通过将解析后的地址数据按照行政级别一级一级的嵌套HashMap,最后得到基于全国行政区划数据和地址别名数据的多重嵌套HashMap中文地址树结果集合。利用多重HashMap进行多重嵌套,得到各级别地址以及能够纠正地址别名的地址树提高了中文地址树的存储范围,对于地址的查询能力从前三级地址拓展到任意乡,街道等较为细致的地址级别,有利于快速定位地址。

在步骤S202的技术方案中,作为示例性的实施例,地址数据可以为全国行政区划数据以及各个地区对当地的区划行政数据的地址简称或地址别名数据,例如,“河南省”为行政区划数据,即为正式地址名称,在本实施例中还需获取其别名数据,例如“河南”或“豫”,例如“河北省”为行政区划数据,即为正式地址名称,在本实施例中还需获取其别名数据,例如“河北”、“冀”或“直隶”等,在本实施例中,可以针对全国的行政区划数据出现的别名或简称进行获取。

在步骤S204的技术方案中,按照行政级别解析所述地址数据,作为示例性的实施例,对所述地址数据进行行政级别划分;将具有上下级行政级别的地址数据以键值对的形势进行存储,其中,在所述键值对中每一行政级别的数据地址包括当前地址数据对应的行政区划数据和地址别名数据。作为示例性的实施例,通过键信息key得到值信息 value存储各级别地址数据,例如,参见图3所示,key=“河南,河南省”时,value=“郑州,郑州市...,洛阳,洛阳市”,以key=“郑州”或key=“郑州市”时,value=“中原区,中原...,中牟县,中牟”等。

在步骤S206的技术方案中,基于hashmap按照行政级别对所述行政区划数据进行层叠多重嵌套,得到地址树。具体的,基于Hash表的 Map接口实现,以键值对的形式存放数据,通过HashMap的一级一级的嵌套HashMap,最后得到基于全国行政区划数据和地址别名数据的多重嵌套HashMap中文地址树结果集合。示例性的,参见图3所示,依次将上一行政级别的地址数据作为所述上一行政级别地址数据下辖的下一行政级别的键信息,将下一行政级别的地址数据作为上一行政级别的地址数据的值信息;将同一行政级别的键信息进行平行拼接得到所述地址树。具体的,例如在查询key=“郑州市”的结果时,得到以各种区和县为key各种镇,街道办事处为value的新的HashMap结果,一直向下查询结果,将每一级别的key值进行拼接,然后就能够得到更加细致的地址数据,比起其他的地址处理和存储方法,我们的发明方法具有更加合理的数据结构,并且拥有更加细化的地址覆盖范围以及更加细致的地址级别(覆盖到镇,乡,街道办事处这种级别的地址),利用HashMap数据结构的特定,数据在查询的过程中依然拥有较好的性能。

根据本申请实施例的另一个方面,还提供了一种地址规范方法,如图4所示,该地址规范化方法可以包括:

S402,获取地址树,所示地址树基于上述实施例中描述的地址树构建方法构建。

S404,获取待规范地址数据。

S406,基于所述地址树对待规范地址数据进行规范化处理,得到规范地址。

通过上述步骤S402至步骤S406,从全国行政区划数据和地址别名数据中检查地址数据,然后基于HashMap数据结构构建中文地址树,对待规范地址数据基于所述地址树进行规范化处理,最后得到有效地址。结合地址树,提高了地址数据规范化后的有效地址级别和精确度,增加别名规范步骤,增加了地址规范的灵活性,提高了地址纠错的能力,规范化方法中的地址补充步骤提高了地址数据的有效性和规范性,为后续业务的开展提供了可靠且有效的地址基础数据。

作为示例性的实施例,对地址进行规范化处理,可以包括对当前待规范地址数据进行地址信息补充,示例性的,可以针对当前的带规范地址数据将对应的所有的行政级别的地址信息进行补充完整,示例性的,基于模式匹配算法得到所述待规范地址数据中的基础地址数据;基于所述地址树对所述基础地址数据进行最大正向匹配,得到所述基础地址数据中的上N级地址数据,其中,N为大于或等于1的正整数;基于地址补充算法对上N级地址数据进行补充。具体的,可以根据模式匹配算法得到地址数据中的道路号和门牌号等数据,然后基于地址树对地址数据进行最大正向匹配,即从地址树的省市区逐步向下比对地址,先匹配上先保留,得到前三级的地址数据。根据地址的补充算法,对地址的前三级别地址进行补充。具体的,地址的补充算法可以包括对所述基础地址数据进行分词;按照所述地址树的行政级别的级数依次进行匹配;在匹配到非最高级别的地址数据时,按照所述地址树中的地址行政级别依次补充当前匹配到的地址数据的上级地址数据。示例性的,在得到待规范地址数据后,示例性的,可以为“望京街道”或者“北京望京”等待规范地址数据,可以对当前待规范地址数据进行分词,具体的可以对待规范地址数据进行地址元素识别,按照不同的地址元素进行划分,若划分后的地址元素的数量大于预设值,则可以认为当前待规范地址数据无需进行地址补充,若划分的地址元素数量小于预设值,则需要对当前待规范地址数据进行补充,在进行分词得到至少一个地址元素之后,可以按照所述地址树的行政级别的级数依次进行匹配,若匹配到最高行政级别的地址数据,例如,“北京望京”分词之后,可以匹配到北京这一行政级别的地址数据。在匹配到非最高级别的地址数据时,例如,匹配到中间级别地址数据,则将上一级别或上N级别地址数据补充完成。作为示例性的,根据地址树构建的级数,可根据当前待规范地址数据的地址级别,若无同名级别地址,则可无差别补充前面任意级别的地址,如当前是望京街道,若地址树中无同名街道,则可直接补充北京市朝阳区望京街道。

作为示例性的实施例,对地址进行规范化处理,可以包括对当前待规范地址数据进行地址信息去重,待规范地址数据包括行政区划数据和所述行政区划数据对应的地址简称数据和/或地址别名数据,将所述地址简称数据和/或地址别名数据根据所述行政区划数据进行规范化处理;检测规范后的地址数据中重复的地址元素;依据重读的地址元素对所述规范后的地址数据去重。例如安徽省安庆市安庆望江县,安庆就是安庆市的别名,并且安庆市存在重复,因此将其去重,得到安徽省安庆市望江县这一规范地址数据。地址去重步骤提升了地址数据的准确性和简洁性,为后续业务的开展提供了可靠且有效的地址基础数据。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM(Read-Only Memory,只读存储器) /RAM(Random Access Memory,随机存取存储器)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。

根据本申请实施例的另一个方面,还提供了一种用于实施上述地址树构建方法的地址树构建装置。图5是根据本申请实施例的一种可选的地址树构建装置的示意图,如图5所示,该装置可以包括:

获取模块502,用于获取地址数据;

解析模块504,用于按照行政级别解析所述地址数据;

构建模块506,用于基于hashmap按照行政级别对所述行政区划数据进行层叠多重嵌套,得到地址树。

需要说明的是,该实施例中的获取模块502可以用于执行上述步骤S202,该实施例中的解析模块504可以用于执行上述步骤S204,该实施例中的构建模块506可以用于执行上述步骤S206。

此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。

根据本申请实施例的又一个方面,还提供了一种用于实施上述地址树构建和/或地址规范方法的电子设备,该电子设备可以是服务器、终端、或者其组合。

图6是根据本申请实施例的一种可选的电子设备的结构框图,如图6所示,包括处理器602、通信接口604、存储器606和通信总线608,其中,处理器602、通信接口604和存储器606通过通信总线608完成相互间的通信,其中,

存储器606,用于存储计算机程序;

处理器602,用于执行存储器606上所存放的计算机程序时,实现如下步骤:

S1,获取地址数据;

S2,按照行政级别解析所述地址数据;

S3,基于hashmap按照行政级别对所述行政区划数据进行层叠多重嵌套,得到地址树。

可选地,在本实施例中,上述的通信总线可以是PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM,也可以包括非易失性存储器(non-volatile memory),例如,至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。

作为一种示例,如图6所示,上述存储器602中可以但不限于包括上述地址树构建装置中的获取模块502、解析模块504以及构建模块 506。此外,还可以包括但不限于上述地址树构建装置中的其他模块单元,本示例中不再赘述。

上述处理器可以是通用处理器,可以包含但不限于:CPU(Central ProcessingUnit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(DigitalSignal Processing,数字信号处理器)、ASIC (Application Specific IntegratedCircuit,专用集成电路)、FPGA(Field- Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。

本领域普通技术人员可以理解,图6所示的结构仅为示意,实施上述地址树构建方法和/或地址规范方法的设备可以是终端设备,该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD 等终端设备。图6其并不对上述电子装置的结构造成限定。例如,终端设备还可包括比图6中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图6所示的不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、 ROM、RAM、磁盘或光盘等。

根据本申请实施例的又一个方面,还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于地址树构建方法和/或地址规范方法的程序代码。

可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:

S1,获取地址数据;

S2,按照行政级别解析所述地址数据;

S3,基于hashmap按照行政级别对所述行政区划数据进行层叠多重嵌套,得到地址树。

可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例中对此不再赘述。

可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、 ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号