首页> 中国专利> 一种基于大数据的人口迁移分析方法和系统

一种基于大数据的人口迁移分析方法和系统

摘要

本申请实施例提供一种基于大数据的人口迁移分析方法和系统。该方法包括:通过社交网站公开API函数获取社交网站中带有地理位置签到信息,构建人口迁移大数据仓库;基于所述人口迁移基础大数据仓库中的数据,以时间为单位,将社交网站中每个用户的签到信息进行描点,并进行统计叠加,得到各时间段人口聚集热点;从所述人口聚集热点按照人口移动时间顺序进行位置反推,得出每个用户的初始出发位置,运用关联规则算法推算出各人口聚集热点人口住址规律。本申请实施例的一种基于大数据的人口迁移分析方法和系统,通过结合人口迁移理论和大数据挖掘特点,提高了人口管理效率,降低了人口管理人员的劳动量。

著录项

  • 公开/公告号CN110046174A

    专利类型发明专利

  • 公开/公告日2019-07-23

    原文格式PDF

  • 申请/专利权人 特斯联(北京)科技有限公司;

    申请/专利号CN201910172651.1

  • 发明设计人 陈茜;

    申请日2019-03-07

  • 分类号

  • 代理机构北京辰权知识产权代理有限公司;

  • 代理人刘广达

  • 地址 100027 北京市朝阳区新源南路8号启皓大厦西塔11层

  • 入库时间 2024-02-19 11:59:52

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-01-31

    授权

    授权

  • 2019-08-16

    实质审查的生效 IPC(主分类):G06F16/2455 申请日:20190307

    实质审查的生效

  • 2019-07-23

    公开

    公开

说明书

技术领域

本申请涉及人口管理领域,尤其涉及一种基于大数据的人口迁移分析方法和系统。

背景技术

人口管理是智慧城市建设的重要组成部分,旨在提升人口管理服务质量,提高都市人员引导,为城市的发展提供更好的支撑。人口迁移分析以人口移动为研究对象,通过统计学、数据挖掘、地理信息学等技术得到人口迁徙的规律,为城市规划、人口引导、政策指定提供决策依据。但是,目前人口迁徙的人工干预率高,识别能力弱,需要耗费大量的人力、物力进行琐碎的整理,而且随着大数据时代的到来,人口迁徙数据呈指数级增长,如何高效利用这些数据成为了当前研究的热点和难点。因此,需要一种基于大数据的人口迁移分析方法。

发明内容

有鉴于此,本申请的目的在于提出一种基于大数据的人口迁移分析方法和系统,提高人口迁移分析水平,解决目前人口迁移分析过程中,效率低、花销大的技术问题。

基于上述目的,本申请提出了一种基于大数据的人口迁移分析方法,包括:

通过社交网站公开API函数获取社交网站中带有地理位置签到信息的发帖,采用规则匹配算法提取出所述签到信息中的地址信息,结合地理信息系统推算出所述地址信息的地理信息,对发帖签到时间进行时间规范化填充,将所述发帖、所述地址信息、所述地理坐标、所述发帖签到时间导入数据仓库,构建人口迁移大数据仓库;

基于所述人口迁移基础大数据仓库中的数据,以时间为单位,将社交网站中每个用户的签到信息进行描点,并进行统计叠加,得到各时间段人口聚集热点;

从所述人口聚集热点按照人口移动时间顺序进行位置反推,得出每个用户的初始出发位置,运用关联规则算法推算出各人口聚集热点人口住址规律。

在一些实施例中,所述构建人口迁移基础大数据仓库,包括:

设置分布式数据节点,采用间歇式随机访问算法访问所述社交网站公开API,并行抽取发帖数据后,剔除语义与空间位置不一致的噪声点,经过去重、清洗、规范化后,存入大数据仓库中。

在一些实施例中,所述结合地理信息系统数据推算出所述地址信息的地理信息,包括:

通过模拟人工点击方法,获取所述签到信息的兴趣点,通过地理信息系统查询得到兴趣点的经纬度坐标及标准地址。

在一些实施例中,所述以时间为单位,将社交网站中每个用户的签到信息进行描点,并进行统计叠加,包括:

测算每小时各兴趣点的签到数量,结合在该兴趣点签到的每个用户的属性进行加权叠加,得到每个兴趣点的热度指数。

在一些实施例中,所述统计叠加包括:

通过公式

H=∑∑ωi·Pj

计算所述兴趣点的热度指数,其中Pj为第j个签到用户属性的量化值,ωi为签到用户的第i个属性的加权系数。

基于上述目的,本申请还提出了一种基于大数据的人口迁移分析系统,包括:

基础数据构建模块,用于通过社交网站公开API函数获取社交网站中带有地理位置签到信息的发帖,采用规则匹配算法提取出所述签到信息中的地址信息,结合地理信息系统推算出所述地址信息的地理信息,对发帖签到时间进行时间规范化填充,将所述发帖、所述地址信息、所述地理坐标、所述发帖签到时间导入数据仓库,构建人口迁移大数据仓库;

签到信息统计模块,用于基于所述人口迁移基础大数据仓库中的数据,以时间为单位,将社交网站中每个用户的签到信息进行描点,并进行统计叠加,得到各时间段人口聚集热点;

迁移规律发现模块,用于从所述人口聚集热点按照人口移动时间顺序进行位置反推,得出每个用户的初始出发位置,运用关联规则算法推算出各人口聚集热点人口住址规律。

在一些实施例中,所述基础数据构建模块,包括:

API访问单元,用于通过社交网站公开API函数获取社交网站中带有地理位置签到信息的发帖;

数据准备单元,用于采用规则匹配算法提取出所述签到信息中的地址信息,结合地理信息系统推算出所述地址信息的地理信息,对发帖签到时间进行时间规范化填充;

数据入库单元,用于将所述发帖、所述地址信息、所述地理坐标、所述发帖签到时间导入数据仓库。

在一些实施例中,所述签到信息统计模块,包括:

描点单元,用于基于所述人口迁移基础大数据仓库中的数据,以时间为单位,将社交网站中每个用户的签到信息进行描点;

统计单元,用于进行统计叠加,得到各时间段人口聚集热点。

在一些实施例中,所述基于大数据的人口迁移分析系统,还包括:

任务调度模块,用于控制任务的分发、资源分配;

效率监控模块,用于监督任务执行效率,并向所述任务调度模块发送监督结果。

本发明实施例还提供了一种计算机可读存储介质,用于存储分布式训练装置所用的计算机软件指令,其包括用于执行上述基于大数据的人口迁移分析方法所涉及的程序。

附图说明

在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。

图1示出根据本发明实施例的基于大数据的人口迁移分析方法的流程图。

图2示出根据本发明实施例的基于大数据的人口迁移分析系统的构成图。

图3示出根据本发明实施例的基础数据构建模块的构成图。

图4示出根据本发明实施例的基于大数据的人口迁移分析系统的构成图。

图5示出根据本发明实施例的信息统计模块的构成图。

图6示出根据本发明实施例的基于大数据的人口迁移分析系统的结构框架图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出根据本发明实施例的基于大数据的人口迁移分析方法的流程图。如图1所示,该基于大数据的人口迁移分析方法包括:

步骤S11、通过社交网站公开API函数获取社交网站中带有地理位置签到信息的发帖,采用规则匹配算法提取出所述签到信息中的地址信息,结合地理信息系统推算出所述地址信息的地理信息,对发帖签到时间进行时间规范化填充,将所述发帖、所述地址信息、所述地理坐标、所述发帖签到时间导入数据仓库,构建人口迁移大数据仓库。

在一种实施方式中,构建人口迁移基础大数据仓库,包括:

设置分布式数据节点,采用间歇式随机访问算法访问所述社交网站公开API,并行抽取发帖数据后,剔除语义与空间位置不一致的噪声点,经过去重、清洗、规范化后,存入大数据仓库中。

举例来说,有的社交网站用户自行进行修改,将故宫所在位置标注在美国,这明显成为语义与空间位置不一致的噪声点,此时需要将其剔除。

在一种实施方式中,间歇式随机访问算法可以通过以下步骤实现:

1.在时间范围(0,t)之间随机选取一个随机数t0作为访问时间间隔,其中t为预先设定的时间间隔最大值;

2.在服务器集群{s1,s2…sn}中随机抽取若干台服务器对社交网站API进行访问;

在一种实施方式中,结合地理信息系统数据推算出所述地址信息的地理信息,包括:

通过模拟人工点击方法,获取所述签到信息的兴趣点,通过地理信息系统查询得到兴趣点的经纬度坐标及标准地址。

在一种实施方式中,模拟人工点击方法可以通过Selenium实现网页的自动加载,根据指令点击带有链接的签到信息;当点击带有链接的签到信息进入具体页面后,可以通过正则表达式匹配方法或DOM(Docum entO bjectM odel,网页对象模型)方法,获取到签到信息的兴趣点。其中,兴趣点即POI(Pointoflnterest),包含了名称、类别、坐标、分类四个方面的信息。举例来说,在地理信息系统中,一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等。

步骤S12、基于所述人口迁移基础大数据仓库中的数据,以时间为单位,将社交网站中每个用户的签到信息进行描点,并进行统计叠加,得到各时间段人口聚集热点。

在一种实施方式中,所述以时间为单位,将社交网站中每个用户的签到信息进行描点,并进行统计叠加,包括:

测算每小时各兴趣点的签到数量,结合在该兴趣点签到的每个用户的属性进行加权叠加,得到每个兴趣点的热度指数。

在一种实施方式中,所述统计叠加包括:通过公式

H=∑∑ωi·Pj

计算所述兴趣点的热度指数,其中Pj为第j个签到用户属性的量化值,ωi为签到用户的第i个属性的加权系数。

举例来说,在一次人口迁移计算过程中,可以以每小时为单位,将社交网站中每个用户的签到信息进行描点,通过叠加统计每个兴趣点的用户储量,统计出每个小时的地理位置热度。

在一种实施方式中,签到用户的加权系数根据实际分析目的进行配置。例如,当分析过程中更加侧重于考虑高学历人群的聚集情况,在加权的过程中,可以给学历属性赋予更大的权重。

步骤S13、从所述人口聚集热点按照人口移动时间顺序进行位置反推,得出每个用户的初始出发位置,运用关联规则算法推算出各人口聚集热点人口住址规律。

在一种实施方式中,设置一个反推截止时间,从人口聚集热点按照人口移动时间顺序进行位置反推过程中,抵达反推截止时间后,便不再反推,此时用户所在的位置即可判定为用户的初始位置。例如,设定早晨8点为反推截止时间,发现IT从业人群在下午3点中都集中在人口聚集热点“北京市海淀区西二旗地区”,从对处于人口聚集热点“北京市海淀区西二旗地区”的人群,以时间顺序进行位置反推,反推至早晨8点时,即可得出IT从业人群大概的居住地区或出行迁移起点。区别于传统的定点分析人口迁移方法,反推式回溯人口迁移轨迹使得人口迁移分析更加动态化,准确度更高。

图2示出图2示出根据本发明实施例的基于大数据的人口迁移分析系统的构成图。如图2所示,该基于大数据的人口迁移分析系统整体可以分为:

基础数据构建模块21,用于通过社交网站公开API函数获取社交网站中带有地理位置签到信息的发帖,采用规则匹配算法提取出所述签到信息中的地址信息,结合地理信息系统推算出所述地址信息的地理信息,对发帖签到时间进行时间规范化填充,将所述发帖、所述地址信息、所述地理坐标、所述发帖签到时间导入数据仓库,构建人口迁移大数据仓库;

签到信息统计模块22,用于基于所述人口迁移基础大数据仓库中的数据,以时间为单位,将社交网站中每个用户的签到信息进行描点,并进行统计叠加,得到各时间段人口聚集热点;

迁移规律发现模块23,用于从所述人口聚集热点按照人口移动时间顺序进行位置反推,得出每个用户的初始出发位置,运用关联规则算法推算出各人口聚集热点人口住址规律。

图3示出根据本发明实施例的基础数据构建模块的构成图。

从图3中可以看出,基础数据构建模块21,包括:

API访问单元21a,用于通过社交网站公开API函数获取社交网站中带有地理位置签到信息的发帖;

数据准备单元21b,用于采用规则匹配算法提取出所述签到信息中的地址信息,结合地理信息系统推算出所述地址信息的地理信息,对发帖签到时间进行时间规范化填充;

数据入库单元21c,用于将所述发帖、所述地址信息、所述地理坐标、所述发帖签到时间导入数据仓库。

图4示出根据本发明实施例的基于大数据的人口迁移分析系统的构成图。从图4可以看出,该基于大数据的人口迁移分析系统还包括:

任务调度模块24,用于控制任务的分发、资源分配;

效率监控模块25,用于监督任务执行效率,并向所述任务调度模块发送监督结果。

图5示出根据本发明实施例的签到信息统计模块的构成图。

描点单元22a,用于基于所述人口迁移基础大数据仓库中的数据,以时间为单位,将社交网站中每个用户的签到信息进行描点;

统计单元22b,用于进行统计叠加,得到各时间段人口聚集热点。

图6示出根据本发明实施例的基于大数据的人口迁移分析系统的结构框架图。如图6所示,该装置包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的事务提交方法。所述存储器910和处理器920的数量可以为一个或多个。

该装置还包括:

通信接口930,用于与外界设备进行通信,进行数据交互传输。

存储器910可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。

如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。

在一种实时例中,来自于各人口迁移分析的数据,根据人口迁移分析的规模和数据量大小,可以通过分布式存储、本地集中化存储、云存储、边缘存储等多种存储方式进行存储,从而提升深度学习网络数据存储效率,减少数据传输时延。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号