基于MapReduce用户聚类算法在Web日志挖掘中应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

现如今，Web上的数据以无法想象的规模在迅速的增大，对这些数据进行挖掘可以得到很多重要信息。本文对创新知识云平台所生成的Web日志进行挖掘可以有效的了解客户的需求，掌握客户的浏览习惯来丰富网站的内容并且对网站的优化以及展示方式都有积极的推动作用。本文通过Web日志的挖掘对用户进行聚类，将具有相同浏览习惯的用户聚集在同一个类中。
　　在用户聚类的过程中会存在一定误差。一方面本文所采用的算法大多数是基于统计学的用户聚类算法，而统计学的准确率是建立在大量实验基础之上。为了减少统计误差，在实验的过程中，选择多个实验样本进行实验；另一方面在用户聚类的过程中一个重要的过程就是用户识别。在用户识别过程中，首先，根据用户的IP地址和用户代理来识别用户；然后，使用会话识别算法来进一步的提升用户识别的效果。
　　用户的相似度计算是用户聚类中非常重要的过程。为了提高用户聚类的准确率，从用户访问路径频繁程度、用户访问路径序列以及用户访问页面语义内容多维度的去构建相关矩阵，通过计算每个矩阵的协调系数来分配各个矩阵的权重在整个相似度计算过程中所起到的作用，保证相似度计算的稳定性。
　　当面临海量数据时，基于单一节点的Web日志挖掘在时间和空间上存在瓶颈。针对该问题，将用户聚类的整个流程构建在Hadoop分布式平台上，使用MapReduce并行计算模型处理日志文件完成相似度计算进行用户聚类。

著录项

作者
周松松;
展开▼
作者单位

河北工业大学;

展开▼
授予单位河北工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名马建红;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
云计算; 数据挖掘; 用户聚类; 并行计算; 矩阵权重;

相似文献

中文文献
外文文献
专利

1. 基于MapReduce的Web日志挖掘算法研究 [J] . 盛昀瑶 ,陈爱民 . 现代计算机（专业版） . 2017,第016期
2. 基于MapReduce的Web日志挖掘预处理 [J] . 毛严奇 ,彭沛夫 . 计算机与现代化 . 2013,第009期
3. 基于MapReduce的Web日志挖掘 [J] . 李彬 ,刘莉莉 . 计算机工程与应用 . 2012,第022期
4. 基于MapReduce的新聚类算法在农业领域的应用——以柑橘红蜘蛛图像目标识别为例 [J] . 卞云超 ,司秀丽 . 中国农机化学报 . 2016,第9期
5. 基于改进聚类算法在金融用户投资推荐中的应用研究 [J] . 林昌辉 . 长沙航空职业技术学院学报 . 2015,第004期
6. 基于MapReduce的Web标签SOINN聚类算法 [C] . WANG Jie ,王洁 ,YU Yan-Shuo . 2013全国高性能计算学术年会 . 2013
7. 基于web日志挖掘的用户会话聚类算法的研究与应用 [A] . 金卫振 . 2009

基于MapReduce用户聚类算法在Web日志挖掘中应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅