一种改进K-Means算法的Web日志挖掘技术的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网和信息技术的快速发展，从云服务上获取知识成为了人们学习的重要途径，同时，不断涌现出的各种云服务应用使得服务器存储的数据量急剧增加。Web日志作为云端应用的重要组成部分，大量有用的知识和待挖掘的信息被存储在其中，人们既可以根据日志文件获取该应用的用户访问情况，也可以对日志文件进行预处理之后运用数据挖掘算法进行深度知识挖掘，获取人们需要的有价值的信息。Web日志作为服务器的记录文件，记录了网站最重要的信息，随着数据量的增加，找出一种应对大数据量的数据挖掘算法，以更有效的分析日志文件迫在眉睫。本文主要分析的Web日志用户聚类是在对日志文件进行数据预处理的基础上，建立用户会话序列矩阵，进而对其进行聚类分析,最终进行相关应用。对于此类研究，国内外学者主要集中在对数据挖掘算法的改进研究上,而大多方案不具备大数据环境下并发处理数据的能力，因此针对海量数据的挖掘算法并发化问题也是本文研究的重点。针对上述问题，本文重点研究了一种结合密度参数与坐标旋转算法的ICKM(Improve cordic K-Means)算法,借助MapReduce原理及分布式理论，在解决传统算法缺陷的同时使算法具备了在大数据环境下处理数据的能力。本文的主要研究内容如下：（1）研究了Web挖掘技术的相关背景知识，通过了解Web挖掘的概念和过程着重分析了在挖掘过程中占重要地位的数据预处理过程，预处理过程的结果好坏直接影响到挖掘算法的结果，针对会话识别理论和传统的时间阈值对预处理输出的影响，给出了一种利用页面链入链出权重比得到时间阈值的解决方案。（2）针对K-Means算法在选取初始中心点上存在的问题，以及在Web日志挖掘应用中，用户构建会话矩阵后存在的孤立点对结果产生的影响，重点研究了一种密度参数与坐标旋转算法相结合的ICKM算法，该算法利用密度参数最大的对象作为第一中心点，利用KCR(K-Means Cordic)算法寻找下一个中心点，在一定程度上避免了孤立点对数据样本的影响，充分考虑用户聚类过程中建立的会话矩阵孤立点的影响，同时运用马氏距离改进了类簇内数据的相似程度。（3）为了提高大数据环境下的计算速度，通过借助MapReduce计算模型实现算法的并行计算，通过框架承载数据的计算压力在一定程度上提高运算速度与准确度。最后，通过实验分析，改进后的算法较传统聚类算法有较高的准确性与稳定性。

著录项

作者
陈洲;
展开▼
作者单位

江苏科技大学;

展开▼
授予单位江苏科技大学;
学科信号与信息处理
授予学位硕士
导师姓名陆南;
年度 2019
页码
总页数
原文格式 PDF
正文语种中文
中图分类
关键词
改进; K-Means算法; Web日志挖掘;

相似文献

中文文献
外文文献
专利

1. K-means聚类算法的一种改进方法研究 [J] . 曾如明 ,李云飞 . 邵阳学院学报（自然科学版） . 2021,第002期
2. 一种改进的K-means算法在城市通勤研究中的应用 [J] . 周天绮 ,杨志民 . 计算机应用与软件 . 2019,第003期
3. 一种基于MapReduce的改进k-means聚类算法研究 [J] . 郭晨晨 ,朱红康 . 河北工业大学学报 . 2016,第005期
4. 一种改进的基于K-means的信息聚类算法研究 [J] . 刘敏 ,韩宾 ,郭有倩 . 信息通信 . 2015,第009期
5. 基于一种改进K-means算法的入侵检测系统研究 [J] . 谢霖铨 ,张思洁 . 河南科技 . 2015,第015期
6. 一种基于Hadoop和K-means的Web日志分析方案的设计 [C] . Fu Wei ,付伟 ,Bai Yongchao . 第十九届全国青年通信学术年会 . 2014
7. 一种改进K-means聚类算法与新的聚类有效性指标研究 [A] . 高新 . 2020

一种改进K-Means算法的Web日志挖掘技术的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅