首页> 中文学位 >互联网访问数据用户识别与兴趣度分析——电信用户数据
【6h】

互联网访问数据用户识别与兴趣度分析——电信用户数据

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章绪论

1.1研究背景

1.2研究现状

1.3主要研究内容

1.4组织结构

1.5本章小结

第二章 相关技术

2.1聚类算法

2.2语义相似度

2.3维基百科词库

2.4 Hadoop

2.5本章小结

第三章 用户识别

3.1数据清理

3.2会话识别

3.3 Cookie提取

3.4用户识别

3.5本章小结

第四章 用户兴趣特征分析

4.1 业务流程分析

4.2关键字提取

4.3关键字的语义消歧

4.4用户兴趣特征分析

4.5相似特征用户挖掘

4.6本章小结

第五章 基于Hadoop的系统设计与实现

5.1Hadoop运行环境

5.2系统设计

5.3用户识别分析

5.4用户兴趣特征分析

5.5本章小结

第六章总结与展望

6.1总结

6.2 展望

参考文献

致谢

展开▼

摘要

随着互联网技术的快速发展和电子商务以及电子产品的普及,网络信息资源的数量急剧增长。一方面,用户在浏览互联网时需要耗费大量的时间才能得到有用的信息。另一方面,信息提供商比如电子商务网站,也希望能够根据用户的偏好,从海量的商品信息中为用户推荐感兴趣或者需要的商品资源。
  论文以某运营商的用户宽带访问记录为基础数据,通过对用户访问日志记录进行分析,挖掘出用户的兴趣爱好特征,从而实现商品信息的个性化推荐。用户访问一个网页时,互联网服务提供商(ISP)会记录用户的日志信息,称为用户访问日志记录,其中包含用户的访问行为相关信息。论文首先研究了基于K-Modes算法的独立用户识别技术,对日志记录进行会话识别分析,识别出属于同一个会话的日记记录集合,进而通过聚类技术识别出独立用户。在此基础上,提出了基于维基百科的语义消歧算法,并结合该算法研究了结合语义的用户兴趣特征分析技术,通过构建兴趣特征分类库,进一步实现了相似兴趣特征用户分类,为商品信息的精确推荐提供了基础。结合用户访问日志记录的海量数据特点和MapReduce在大数据处理以及算法的可扩展性上的优势,论文最后在Hadoop平台上设计并实现了这些算法。总结起来,论文的主要工作包含以下几个方面。
  独立用户识别技术研究。将用户识别过程分为数据清洗、会话识别、Cookie提取和用户识别四个步骤。数据清洗是删除冗余和无效数据,在此基础上,提出了结合参引页和时间阈值的会话识别方法;通过对Cookie数据的分析,提取出表示用户登录常用网站的用户名字段,最终确定了能够有效判断独立用户的十个字段,基于K-Modes算法的用户识别技术,通过聚类从日志记录中识别出独立用户,并为其编号。
  用户兴趣特征分析技术研究。首先,分析了总体的业务流程,根据用户的搜索关键字,通过分词技术,提取出特征关键字;结合维基百科语义词典,提出了中文语义消歧算法,研究了兴趣特征关键字消岐技术,从而得到每个用户的兴趣特征。基于用户在每个词语中相同的语义和分类下的词频统计,为其标识权重;在此基础上,通过构建一个兴趣特征分类库,并根据特征分类库中的每一个分类词与用户的相似度,实现了相似兴趣特征用户的分类。
  结合所研究的独立用户识别和用户兴趣特征分析技术,论文在Hadoop环境中设计并实现相关算法。首先分析了系统的整体架构,将系统分为用户识别和用户特征分析两个子系统;并进一步将用户识别子系统分为数据清理、会话识别、Cookie提取和用户识别四个子模块,将用户特征分析子系统分为关键字提取、用户兴趣特征提取和相似特征用户挖掘三个子模块。详细分析了各个模块的执行过程,并给出了关键模块的核心代码实现,验证了课题所研究技术的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号