公开/公告号CN104239327A
专利类型发明专利
公开/公告日2014-12-24
原文格式PDF
申请/专利权人 中国科学院深圳先进技术研究院;
申请/专利号CN201310239737.4
申请日2013-06-17
分类号
代理机构深圳市科进知识产权代理事务所(普通合伙);
代理人宋鹰武
地址 518055 广东省深圳市南山区西丽大学城学苑大道1068号
入库时间 2023-12-17 04:44:31
法律状态公告日
法律状态信息
法律状态
2017-11-07
授权
授权
2015-01-14
实质审查的生效 IPC(主分类):G06F17/30 申请日:20130617
实质审查的生效
2014-12-24
公开
公开
【技术领域】
本发明涉及数据挖掘领域,尤其涉及一种基于位置信息的移动互联网用户 行为分析方法及装置。
【背景技术】
如今网络服务中的内容种类越来越丰富,提供各种信息的网页涵盖各行各 业,可以运行在移动终端平台的各种应用服务功能强大且种类繁多,在这些应 用服务丰富用户选择的同时,同时也给用户带来了信息量暴增的挑战。为使用 户能从纷繁复杂的应用服务中选择符合自身需求的服务,运营商希望针对不同 的用户提供个性化的服务,以实现精准的营销策略,从而使收益最大化。因此 需要对用户的行为模式进行准确分析,获知不同用户群体的行为特点及其使用 习惯。
目前对互联网用户行为分析的方法主要有基于传统互联网用户的行为分析 和基于无线互联网用户的行为分析两大类。
基于传统互联网用户的行为分析存在无法有效标识单一用户并取得其个人 属性及行为数据、只能对单个行为本身进行分析预测的缺点。此外,目前一些 采用如神经网络等特征分类算法的用户行为分析方案需要预先确定用户使用的 业务类别,并设定网络用户使用的业务种类与网络用户行为类别之间的对应关 系,这种做法需要事先对业务进行分类,无法做到业务种类的自动识别,人工 成本较高,且随着用户的增加和业务种类的不断攀升,该方案的可扩展性不强。
基于无线互联网用户的行为分析在用户细分、用户特征提取方面还存在许 多可以提升的空间,目前对客户的细分还只是停留在根据用户的统计指标进行 分堆的阶段,对用户潜在的需求进行的挖掘不够细致和深入,特别是当前的用 户行为分析方案中很少结合用户的地理位置信息。由于互联网用户的行为与该 用户所在的地理位置有极大的相关性,因此用户的地理位置信息对于用户行为 分析有着重要的意义。
【发明内容】
本发明旨在解决上述现有技术中存在的问题,提出一种基于位置信息的移 动互联网用户行为分析方法及装置。
本发明一方面提出一种基于位置信息的移动互联网用户行为分析方法,包 括步骤:S1、获取并存储移动互联网用户的IMEI码、IMSI码,对移动互联网 用户身份进行标识;S2、获取并存储各个身份移动互联网用户的历史位置信息 以及历史应用服务信息,所述历史位置信息包括若干地点元素及其频次,所述 地点元素表示移动互联网用户经过的地点,所述历史应用服务信息包括若干应 用服务元素及其频次,所述应用服务元素表示移动互联网用户使用过的应用服 务;S3、根据所述历史位置信息初始化地点主题Li(i=1,2,…),根据所述历史 应用服务信息初始化应用服务主题Aj(j=1,2,…),其中每个所述地点主题Li代表相同种类所述地点元素的集合,每个所述应用服务主题Aj代表相同种类所 述应用服务元素的集合;S4、对所述历史应用服务信息进行抽样,结合应用服 务主题Aj获取参数矩阵Φ,并对所述历史位置信息进行抽样,结合地点主题Li获取参数矩阵Β,其中Φ表示在各个应用服务主题下产生各个应用服务元素的 概率,Β表示在各个地点主题下产生各个地点元素的概率;S5、采用Gibbs抽样 法,根据应用服务主题Aj、地点主题Li、参数矩阵Φ、Β获取参数矩阵Θ,Θ 表示在各个应用服务主题下产生各个地点主题的概率;S6、采用Gibbs抽样法, 并基于极大似然估计准则,更新参数矩阵Φ、Β、Θ;S7、判断参数矩阵Φ、Β、 Θ值是否收敛,若否则重复步骤S4至S6,更新参数矩阵Φ、Β、Θ值直至收敛; S8、获取移动互联网用户的IMEI码、IMSI码及其当前位置信息,根据属于所 述用户的参数矩阵Βf、Θf、Φf获取与当前位置信息关联度最大的应用服务元素, 并向所述用户推送,其中,Φf、Βf、Θf分别为Φ、Β、Θ收敛后的优化值。
本发明另一方面提出一种基于位置信息的移动互联网用户行为分析装置, 包括存储模块、用户属性信息获取模块、历史信息获取模块、数据处理模块、 应用服务推送模块,其中,所述用户属性信息获取模块获取移动互联网用户的 IMEI码、IMSI码,所述存储模块存储所述IMEI码、IMSI码;所述历史信息获 取模块获取各个身份移动互联网用户的历史位置信息以及历史应用服务信息, 所述历史位置信息包括若干地点元素及其频次,所述地点元素表示移动互联网 用户经过的地点,所述历史应用服务信息包括若干应用服务元素及其频次,所 述应用服务元素表示移动互联网用户使用过的应用服务,所述存储模块存储所 述历史位置信息以及历史应用服务信息;所述数据处理模块根据所述历史位置 信息初始化地点主题Li(i=1,2,…),并根据所述历史应用服务信息初始化应用 服务主题Aj(j=1,2,…),其中每个所述地点主题Li代表相同种类所述地点元 素的集合,每个所述应用服务主题Aj代表相同种类所述应用服务元素的集合; 所述数据处理模块对所述历史应用服务信息进行抽样,结合应用服务主题Aj获 取参数矩阵Φ,并对所述历史位置信息进行抽样,结合地点主题Li获取参数矩 阵Β,其中Φ表示在各个应用服务主题下产生各个应用服务元素的概率,Β表 示在各个地点主题下产生各个地点元素的概率;根据应用服务主题Aj、地点主 题Li、参数矩阵Φ、Β,基于Gibbs抽样法,所述数据处理模块获取参数矩阵Θ, Θ表示在各个应用服务主题下产生各个地点主题的概率;基于Gibbs抽样法与极 大似然估计准则,所述数据处理模块更新参数矩阵Φ、Β、Θ值直至收敛,获取 Φ的优化值Φf、Β的优化值Βf以及Θ的优化值Θf;所述用户属性信息获取模块 获取移动互联网用户的IMEI码、IMSI码及其当前位置信息,所述数据处理模 块根据属于所述用户的参数矩阵Βf、Θf、Φf获取与当前位置信息关联度最大的 应用服务;所述应用服务推送模块向所述用户推送与当前位置信息关联度最大 的应用服务。
本发明提出的基于位置信息的移动互联网用户行为分析方法及装置利用了 移动互联网用户的地理位置信息,并基于移动互联网用户地理位置信息及其处 于该地理位置所使用应用服务种类的高相关性向用户推送其高度关注的应用服 务,提高了营销的准确性;同时本发明方案采用改进的概率主题模型自动从用 户的地点集合与行为集合中提取主题,而事先不需要将用户的业务种类进行分 类,减少了手动分类造成的人工成本,实现了业务种类的自动识别,具有较强 的可扩展性。
【附图说明】
图1为本发明一实施例的基于位置信息的移动互联网用户行为分析方法流 程图;
图2为本发明一实施例的获取与移动互联网当前位置信息关联度最大的应 用服务元素的方法流程图;
图3为本发明一实施例的基于位置信息的移动互联网用户行为分析装置结 构图。
【具体实施方式】
为了使本发明的目的、技术方案及优点更加清晰,以下结合具体实施例及 附图,对本发明作进一步详细说明。应当理解,文中所描述的具体实施例仅仅 用以解释本发明的技术方案,而不应当理解为对本发明的限制。
本发明一方面提供一种基于位置信息的移动互联网用户行为分析方法,如 图1所示,该方法包括以下步骤:S1、获取并存储移动互联网用户的IMEI码、 IMSI码,对移动互联网用户身份进行标识;S2、获取并存储各个身份移动互联 网用户的历史位置信息以及历史应用服务信息;S3、根据所述历史位置信息初 始化地点主题Li(i=1,2,…),根据所述历史应用服务信息初始化应用服务主题 Aj(j=1,2,…);S4、对所述历史应用服务信息进行抽样,结合应用服务主题 Aj获取参数矩阵Φ,并对所述历史位置信息进行抽样,并结合地点主题Li获取 参数矩阵Β;S5、采用Gibbs抽样法,根据应用服务主题Aj、地点主题Li、参 数矩阵Φ、Β获取参数矩阵Θ;S6、采用Gibbs抽样法,并基于极大似然估计准 则,更新参数矩阵Φ、Β、Θ;S7、判断参数矩阵Φ、Β、Θ值是否收敛,若否 则重复步骤S4至S6,更新参数矩阵Φ、Β、Θ值直至收敛;S8、获取移动互联 网用户的IMEI码、IMSI码及其当前位置信息,根据属于所述用户的参数矩阵Βf、 Θf、Φf获取与当前位置信息关联度最大的应用服务元素,并向所述用户推送, 其中,Φf、Βf、Θf分别为Φ、Β、Θ收敛后的优化值。
下面将对上述基于位置信息的移动互联网用户行为分析方法的技术方案作 进一步详细介绍。
在步骤S1中,通过移动运营商数据服务器获取并存储移动互联网用户的 IMEI码(International Mobile Equipment Identity,国际移动设备身份码)、IMSI 码(International Mobile Subscriber Identity,国际移动用户识别码),由于可能出 现一机多卡或一卡多机的情况,在本实施例中,将IMEI码与IMSI码共同作为 移动互联网用户的身份标识。
在步骤S2中,通过移动运营商数据服务器获取并存储各个身份移动互联网 用户的历史位置信息以及历史应用服务信息,所述历史位置信息包括若干地点 元素及其频次,所述地点元素表示移动互联网用户在过去一段时间T内经过的 地点或场所,例如“第一人民医院”、“苏宁商场”、“新华书店”等,此处的频 次即所述互联网用户在过去一段时间T内经过上述各个地点元素的次数;所述 历史应用服务信息包括若干应用服务元素及其频次,所述应用服务元素表示移 动互联网用户在过去一段时间T内使用过的应用服务,例如“QQ”、“谷歌地图”、 “大众点评”等,此处的频次即所述互联网用户在过去一段时间T内使用上述 各个应用服务的次数。优选地,为保证所述历史位置信息以及历史应用服务信 息包含的数据样本足够大,对所述时间T的取值以若干月或更长为宜。
在步骤S3中,根据在步骤S2中获取的所述历史位置信息初始化地点主题 Li(i=1,2,…),其中每个所述地点主题Li代表相同种类所述地点元素的集合, 如所述移动互联网用户在一段时间T内曾去过“第一人民医院”、“第二人民医 院”、“妇幼保健院”等地点,则地点主题“医院”代表“第一人民医院”、“第 二人民医院”、“妇幼保健院”等若干上述地点元素的集合;同时,在步骤S3中, 根据所述历史应用服务信息初始化应用服务主题Aj(j=1,2,…),其中每个所述 应用服务主题Aj代表相同种类所述应用服务元素的集合,如所述移动互联网用 户在一段时间T内曾使用过“QQ”、“微信”、“Skype”等应用服务,则应用服 务主题“聊天类”代表“QQ”、“微信”、“Skype”等若干上述应用服务元素的 集合。
优选地,所述应用服务主题Aj(j=1,2,…)服从Multinomial(π)分布,π服从 Dirichlet(α)分布,α为Dirichlet分布参数。
在步骤S4中,对所述历史应用服务信息进行抽样,结合所述应用服务主题 Aj获取参数矩阵Φ;同时对所述历史位置信息进行抽样,结合地点主题Li获取 参数矩阵Β,其中参数矩阵Φ表示在各个应用服务主题下产生各个应用服务元 素的概率,参数矩阵Β表示在各个地点主题下产生各个地点元素的概率。
在步骤S5中,采用Gibbs抽样法,根据所述应用服务主题Aj(j=1,2,…)、 地点主题Li(i=1,2,…)、参数矩阵Φ、Β获取参数矩阵Θ,Θ表示在各个应用 服务主题下产生各个地点主题的概率。
在步骤S6中,采用Gibbs抽样法,并基于极大似然估计准则,更新参数矩 阵Φ、Β、Θ;在步骤S7中,判断参数矩阵Φ、Β、Θ值是否收敛,若否则重复 步骤S4至S6,更新参数矩阵Φ、Β、Θ值直至收敛。Gibbs抽样法是计算LDA (Latent Dirichlet Allocation)主题模型参数的一种数学实现方法,该方法通过蒙 特卡罗方法(Monte Carlo method),采用类积分方法,通过大量的循环随机抽样, 利用上一次计算结果作为先验概率,之后再计算后验概率,根据贝叶斯及统计 学相关理论,在循环次数足够多时将计算结果逼近真实值。Gibbs抽样法的循环 更新次数K可预先设定,K值越大,参数矩阵优化值Φf、Βf、Θf越精确,在本 实施例中,可具体根据数据处理器的运算能力设定K值。
在步骤S8中,获取移动互联网用户的IMEI码、IMSI码及其当前位置信息, 根据属于所述用户的参数矩阵Βf、Θf、Φf获取与当前位置信息关联度最大的应 用服务元素,并向所述用户推送,其中,Φf、Βf、Θf分别为Φ、Β、Θ收敛后的 优化值。获取移动互联网用户的IMEI码、IMSI码用于确定所述移动互联网用 户的身份,由于在步骤S1中已存储所述移动互联网用户的IMEI码、IMSI码对 其身份进行标识,因此在步骤S8中,根据属于所述移动互联网用户的参数矩阵 Βf、Θf、Φf获取与所述移动互联网用户当前位置信息关联度最大的应用服务元 素,并向所述移动互联网用户推送该应用服务。
优选地,如图2所示,步骤S8具体包括以下步骤:S81、根据所述当前位 置信息以及参数矩阵Βf获取与所述当前位置信息关联度最大的地点主题Lc; S82、根据参数矩阵Θf获取与Lc关联度最大的应用服务主题Ac;S83、根据参 数矩阵Φf获取与Ac关联度最大的应用服务元素Ec,所述应用服务元素Ec即与 所述移动互联网用户当前位置信息关联度最大。具体地,在步骤S81中,根据 所述当前位置信息中的地点元素以及参数矩阵Βf获取与所述地点元素关联度最 大的地点主题Lc,其中参数矩阵Βf的行表示地点元素,列表示地点主题,根据 所述地点元素,从参数矩阵Βf中提取该地点元素对应的列向量,其中列向量中 的元素表示该地点元素属于不同地点主题的概率分布情况,将列向量排序,得 到该地点元素所属的概率最大的地点主题Lc;在步骤S82中,根据参数矩阵Θf获取与Lc关联度最大的应用服务主题Ac,其中参数矩阵Θf的行表示应用服务主 题,列表示地点主题,根据步骤S81中得到的地点主题Lc,从参数矩阵Θf中提 取地点主题Lc所对应的行向量,其中行向量中的元素表示表示地点主题Lc对应 不同应用服务主题的概率分布情况,将行向量排序,得到地点主题Lc对应的概 率最大的应用服务主题Ac;在步骤S83中,根据参数矩阵Φf获取与Ac关联度 最大的应用服务元素Ec,所述应用服务元素Ec与所述用户当前位置信息关联度 最大,其中参数矩阵Φf的行表示应用服务元素,列表示应用服务主题,根据步 骤S82中得到的应用服务主题,从参数矩阵Φf中提取应用服务主题Ac所对应的 行向量,其中行向量中的元素表示应用服务主题Ac所包含的不同应用服务元素 的概率分布情况,将行向量排序,概率越大的应用服务元素表示在应用服务主 题Ac下用户使用该应用服务元素的可能性越高,选取概率最大的应用服务元素 Ec作为与所述移动互联网用户当前位置信息关联度最大的应用服务,并向所述 移动互联网用户推送。
本发明另一方面提供一种基于位置信息的移动互联网用户行为分析装置, 如图3所示,所述装置包括:存储模块100、用户属性信息获取模块200、历史 信息获取模块300、数据处理模块400、应用服务推送模块500。
下面将对所述基于位置信息的移动互联网用户行为分析装置各个模块之间 的连接关系以及工作原理作进一步详细描述。
所述用户属性信息获取模块200通过移动运营商数据服务器获取并存储移 动互联网用户的IMEI码(International Mobile Equipment Identity,国际移动设备 身份码)、IMSI码(International Mobile Subscriber Identity,国际移动用户识别 码),由于可能出现一机多卡或一卡多机的情况,在本实施例中,将IMEI码与 IMSI码共同作为移动互联网用户的身份标识。所述存储模块100存储所述IMEI 码、IMSI码,用作对所述移动互联网用户身份进行标识。
所述历史信息获取模块300通过移动运营商数据服务器获取并存储各个身 份移动互联网用户的历史位置信息以及历史应用服务信息,所述历史位置信息 包括若干地点元素及其频次,所述地点元素表示移动互联网用户在过去一段时 间T内经过的地点或场所,例如“第一人民医院”、“苏宁商场”、“新华书店” 等,此处的频次即所述互联网用户在过去一段时间T内经过上述各个地点元素 的次数;所述历史应用服务信息包括若干应用服务元素及其频次,所述应用服 务元素表示移动互联网用户在过去一段时间T内使用过的应用服务,例如“QQ”、 “谷歌地图”、“大众点评”等,此处的频次即所述互联网用户在过去一段时间T 内使用上述各个应用服务的次数。优选地,为保证所述历史位置信息以及历史 应用服务信息包含的数据样本足够大,对所述时间T的取值以若干月或更长为 宜。所述存储模块100存储所述历史位置信息以及历史应用服务信息。
所述数据处理模块400根据所述历史位置信息初始化地点主题Li(i=1, 2,…),其中每个所述地点主题Li代表相同种类所述地点元素的集合,如所述移 动互联网用户在一段时间T内曾去过“第一人民医院”、“第二人民医院”、“妇 幼保健院”等地点,则地点主题“医院”代表“第一人民医院”、“第二人民医 院”、“妇幼保健院”等若干上述地点元素的集合;同时,所述数据处理模块400 根据所述历史应用服务信息初始化应用服务主题Aj(j=1,2,…),其中每个所述 应用服务主题Aj代表相同种类所述应用服务元素的集合,如所述移动互联网用 户在一段时间T内曾使用过“QQ”、“微信”、“Skype”等应用服务,则应用服 务主题“聊天类”代表“QQ”、“微信”、“Skype”等若干上述应用服务元素的 集合。
优选地,所述应用服务主题Aj(j=1,2,…)服从Multinomial(π)分布,π服从 Dirichlet(α)分布,α为Dirichlet分布参数。
所述数据处理模块400对所述历史应用服务信息进行抽样,结合所述应用 服务主题Aj获取参数矩阵Φ;同时对所述历史位置信息进行抽样,结合地点主 题Li获取参数矩阵Β,其中参数矩阵Φ表示在各个应用服务主题下产生各个应 用服务元素的概率,参数矩阵Β表示在各个地点主题下产生各个地点元素的概 率。
根据所述应用服务主题Aj(j=1,2,…)、地点主题Li(i=1,2,…)、参数矩 阵Φ、Β,并基于Gibbs抽样法,所述数据处理模块400获取参数矩阵Θ,Θ表 示在各个应用服务主题下产生各个地点主题的概率。
基于Gibbs抽样法与极大似然估计准则,所述数据处理模块400更新所述参 数矩阵Φ、Β、Θ值直至收敛,获取Φ的优化值Φf、Β的优化值Βf以及Θ的优 化值Θf。Gibbs抽样法是计算LDA(Latent Dirichlet Allocation)主题模型参数 的一种数学实现方法,该方法通过蒙特卡罗方法(Monte Carlo method),采用类 积分方法,通过大量的循环随机抽样,利用上一次计算结果作为先验概率,之 后再计算后验概率,根据贝叶斯及统计学相关理论,在循环次数足够多时将计 算结果逼近真实值。Gibbs抽样法的循环更新次数K可预先设定,K值越大,参 数矩阵优化值Φf、Βf、Θf越精确,在本实施例中,可具体根据所述数据处理模 块400的运算能力设定K值。
所述用户属性信息获取模块200获取移动互联网用户的IMEI码、IMSI码 及其当前位置信息,所述数据处理模块400根据属于所述用户的参数矩阵Βf、Θf、 Φf获取与当前位置信息关联度最大的应用服务元素,所述应用服务推送模块500 向所述用户推送该应用服务。移动互联网用户的IMEI码、IMSI码用于确定所 述移动互联网用户的身份,由于所述存储模块100已存储所述移动互联网用户 的IMEI码、IMSI码用于对用户身份进行标识,因此根据属于所述移动互联网 用户的参数矩阵Βf、Θf、Φf获取与所述移动互联网用户当前位置信息关联度最 大的应用服务元素,所述应用服务推送模块500向所述移动互联网用户推送该 应用服务。
优选地,所述数据处理模块400根据所述当前位置信息以及参数矩阵Βf获 取与所述当前位置信息关联度最大的地点主题Lc,根据参数矩阵Θf获取与Lc关联度最大的应用服务主题Ac,根据参数矩阵Φf获取与Ac关联度最大的应用 服务元素Ec,所述应用服务元素Ec即为与当前位置信息关联度最大的应用服务。
具体地,所述数据处理模块400根据所述当前位置信息中的地点元素以及 参数矩阵Βf获取与所述地点元素关联度最大的地点主题Lc,其中参数矩阵Βf的行表示地点元素,列表示地点主题,根据所述地点元素,从参数矩阵Βf中提 取该地点元素对应的列向量,其中列向量中的元素表示该地点元素属于不同地 点主题的概率分布情况,将列向量排序,得到该地点元素所属的概率最大的地 点主题Lc;所述数据处理模块400根据参数矩阵Θf获取与Lc关联度最大的应用 服务主题Ac,其中参数矩阵Θf的行表示应用服务主题,列表示地点主题,根据 步骤S71中得到的地点主题Lc,从参数矩阵Θf中提取地点主题Lc所对应的行向 量,其中行向量中的元素表示表示地点主题Lc对应不同应用服务主题的概率分 布情况,将行向量排序,得到地点主题Lc对应的概率最大的应用服务主题Ac; 所述数据处理模块400根据参数矩阵Φf获取与Ac关联度最大的应用服务元素 Ec,所述应用服务元素Ec与所述用户当前位置信息关联度最大,其中参数矩阵 Φf的行表示应用服务元素,列表示应用服务主题,根据应用服务主题Ac,从参 数矩阵Φf中提取应用服务主题Ac所对应的行向量,其中行向量中的元素表示应 用服务主题Ac所包含的不同应用服务元素的概率分布情况,将行向量排序,概 率越大的应用服务元素表示在应用服务主题Ac下用户使用该应用服务元素的可 能性越高,选取概率最大的应用服务元素Ec作为与所述移动互联网用户当前位 置信息关联度最大的应用服务,所述应用服务推送模块500向所述移动互联网 用户推送该应用服务。
本发明提出的基于位置信息的移动互联网用户行为分析方法及装置利用了 移动互联网用户的地理位置信息,并基于移动互联网用户地理位置信息及其处 于该地理位置所使用应用服务种类的高相关性向用户推送其高度关注的应用服 务,提高了营销的准确性;同时本发明方案采用改进的概率主题模型自动从用 户的地点集合与行为集合中提取主题,而事先不需要将用户的业务种类进行分 类,减少了手动分类造成的人工成本,实现了业务种类的自动识别,具有较强 的可扩展性。
虽然本发明参照当前的较佳实施方式进行了描述,但本领域的技术人员应 能理解,上述较佳实施方式仅用来解释和说明本发明的技术方案,而并非用来 限定本发明的保护范围,任何在本发明的精神和原则范围之内,所做的任何修 饰、等效替换、变形、改进等,均应包含在本发明的权利要求保护范围之内。
机译: 一种用于自适应性可视化基于位置的数字信息的方法和装置
机译: 一种基于扬声器的位置信息输出音频信号的方法和装置
机译: 一种基于导航菜单中的餐厅资源搜索方法及装置,能够方便的餐厅位置信息搜索