首页> 中文学位 >基于MapReduce用户聚类算法在Web日志挖掘中应用
【6h】

基于MapReduce用户聚类算法在Web日志挖掘中应用

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪 论

1.1 研究背景和意义

1.2 国内外研究现状

1.3 研究目标

1.4 研究的内容和组织结构

1.5 本章小结

第二章 相关理论及技术概述

2.1 Nginx日志格式

2.2 MapReduce框架分析

2.3 Hive

2.4 Protobuffer优势

2.5日志挖掘相关算法

2.6 本章小结

第三章 用户聚类

3.1 用户聚类流程

3.2 数据预处理

3.3 相关矩阵的构建

3.4 用户相似度计算

3.5 聚类算法

3.6 本章小结

第四章 实验结果

4.1 系统设计

4.2 实验环境

4.3 实验结果与分析

4.4 本章小结

第五章 结论

5.1 论文总结

5.2 论文展望

参考文献

攻读学位期间所取得的相关科研成果

致谢

展开▼

摘要

现如今,Web上的数据以无法想象的规模在迅速的增大,对这些数据进行挖掘可以得到很多重要信息。本文对创新知识云平台所生成的Web日志进行挖掘可以有效的了解客户的需求,掌握客户的浏览习惯来丰富网站的内容并且对网站的优化以及展示方式都有积极的推动作用。本文通过Web日志的挖掘对用户进行聚类,将具有相同浏览习惯的用户聚集在同一个类中。
  在用户聚类的过程中会存在一定误差。一方面本文所采用的算法大多数是基于统计学的用户聚类算法,而统计学的准确率是建立在大量实验基础之上。为了减少统计误差,在实验的过程中,选择多个实验样本进行实验;另一方面在用户聚类的过程中一个重要的过程就是用户识别。在用户识别过程中,首先,根据用户的IP地址和用户代理来识别用户;然后,使用会话识别算法来进一步的提升用户识别的效果。
  用户的相似度计算是用户聚类中非常重要的过程。为了提高用户聚类的准确率,从用户访问路径频繁程度、用户访问路径序列以及用户访问页面语义内容多维度的去构建相关矩阵,通过计算每个矩阵的协调系数来分配各个矩阵的权重在整个相似度计算过程中所起到的作用,保证相似度计算的稳定性。
  当面临海量数据时,基于单一节点的Web日志挖掘在时间和空间上存在瓶颈。针对该问题,将用户聚类的整个流程构建在Hadoop分布式平台上,使用MapReduce并行计算模型处理日志文件完成相似度计算进行用户聚类。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号