首页> 中文学位 >一种改进K-Means算法的Web日志挖掘技术的研究
【6h】

一种改进K-Means算法的Web日志挖掘技术的研究

代理获取

目录

声明

第1章 绪论

1.1 研究背景及意义

1.1.1 Web日志挖掘

1.1.2 云计算和大数据技术

1.2 国内外研究现状

1.2.1 Web挖掘技术

1.2.2 K-均值聚类算法

1.2.3 分布式计算

1.3 本文研究内容

1.4 本文的组织框架

第2章 Web日志挖掘技术的研究

2.1 Web数据挖掘

2.1.1 数据挖掘

2.1.2 Web数据挖掘

2.2 Web日志挖掘概述

2.3 Web日志挖掘数据预处理技术

2.3.1 数据清洗

2.3.2 用户识别

2.3.3 会话识别

2.4 本章小结

第3章 K-均值聚类算法相关研究

3.1 聚类分析

3.1.1 聚类分析简介

3.1.2 聚类分析方法

3.2 基于聚类的Web日志挖掘

3.3 K-均值聚类算法

3.3.1 算法描述

3.3.2 基于K-均值聚类的用户聚类

3.3.3 算法缺陷

3.4 改进的K-均值聚类算法

3.4.1 ICKM算法描述

3.4.2 算法特点

3.5 本章小结

第4章 基于MapReduce的K-均值聚类算法

4.1 云计算

4.2 分布式相关技术

4.2.1 Hadoop运行框架

4.2.2 HDFS分布式文件系统

4.2.3 MapReduce编程模型

4.3 ICKM算法的MapReduce并行化

4.3.1 ICKM并行化可行性分析

4.3.2 ICKM算法的Map阶段

4.3.3 ICKM算法的Reduce阶段

4.4 本章小结

第5章 实验设计与结果分析

5.1 实验环境与实验样本

5.1.1 实验环境

5.1.2 实验样本

5.2 Web日志挖掘系统数据模型建立

5.3 实验结果与分析

5.3.1 实验性能参数

5.3.2 实验结果与分析

5.4 实验性能分析

5.5 本章小结

总结和展望

参考文献

攻读硕士期间发表的学术论文

致谢

展开▼

摘要

随着互联网和信息技术的快速发展,从云服务上获取知识成为了人们学习的重要途径,同时,不断涌现出的各种云服务应用使得服务器存储的数据量急剧增加。Web日志作为云端应用的重要组成部分,大量有用的知识和待挖掘的信息被存储在其中,人们既可以根据日志文件获取该应用的用户访问情况,也可以对日志文件进行预处理之后运用数据挖掘算法进行深度知识挖掘,获取人们需要的有价值的信息。Web日志作为服务器的记录文件,记录了网站最重要的信息,随着数据量的增加,找出一种应对大数据量的数据挖掘算法,以更有效的分析日志文件迫在眉睫。 本文主要分析的Web日志用户聚类是在对日志文件进行数据预处理的基础上,建立用户会话序列矩阵,进而对其进行聚类分析,最终进行相关应用。对于此类研究,国内外学者主要集中在对数据挖掘算法的改进研究上,而大多方案不具备大数据环境下并发处理数据的能力,因此针对海量数据的挖掘算法并发化问题也是本文研究的重点。 针对上述问题,本文重点研究了一种结合密度参数与坐标旋转算法的ICKM(Improve cordic K-Means)算法,借助MapReduce原理及分布式理论,在解决传统算法缺陷的同时使算法具备了在大数据环境下处理数据的能力。 本文的主要研究内容如下: (1)研究了Web挖掘技术的相关背景知识,通过了解Web挖掘的概念和过程着重分析了在挖掘过程中占重要地位的数据预处理过程,预处理过程的结果好坏直接影响到挖掘算法的结果,针对会话识别理论和传统的时间阈值对预处理输出的影响,给出了一种利用页面链入链出权重比得到时间阈值的解决方案。 (2)针对K-Means算法在选取初始中心点上存在的问题,以及在Web日志挖掘应用中,用户构建会话矩阵后存在的孤立点对结果产生的影响,重点研究了一种密度参数与坐标旋转算法相结合的ICKM算法,该算法利用密度参数最大的对象作为第一中心点,利用KCR(K-Means Cordic)算法寻找下一个中心点,在一定程度上避免了孤立点对数据样本的影响,充分考虑用户聚类过程中建立的会话矩阵孤立点的影响,同时运用马氏距离改进了类簇内数据的相似程度。 (3)为了提高大数据环境下的计算速度,通过借助MapReduce计算模型实现算法的并行计算,通过框架承载数据的计算压力在一定程度上提高运算速度与准确度。最后,通过实验分析,改进后的算法较传统聚类算法有较高的准确性与稳定性。

著录项

  • 作者

    陈洲;

  • 作者单位

    江苏科技大学;

  • 授予单位 江苏科技大学;
  • 学科 信号与信息处理
  • 授予学位 硕士
  • 导师姓名 陆南;
  • 年度 2019
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    改进; K-Means算法; Web日志挖掘;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号