首页> 中文学位 >基于闭频繁项集的Web日志挖掘
【6h】

基于闭频繁项集的Web日志挖掘

代理获取

目录

中文摘要

Abstract

第一章 引言

1.1 研究背景与意义

1.2 国内外研究现状

1.3 论文组织结构

第二章 数据挖掘概述

2.1 数据挖掘的产生

2.2 数据挖掘的定义

2.3 数据挖掘的特点

2.4 数据挖掘的分类

2.5 数据挖掘的方法

2.6 数据挖掘功能

2.7 数据挖掘未来发展趋势

2.8 本章小结

第三章 Web 挖掘和Web 日志挖掘

3.1 Web 挖掘的分类

3.1.1 Web 内容挖掘

3.1.2 Web 结构挖掘

3.1.3 Web 日志挖掘

3.2 Web 日志挖掘研究

3.2.1 Web 日志挖掘相关概念

3.2.2 Web 日志挖掘模型

3.2.3 Web 日志挖掘的应用领域

3.3 Web 日志挖掘过程研究

3.3.1 数据来源分析

3.3.2 Web 日志挖掘的数据预处理

3.3.3 模式发现

3.4 本章小结

第四章 关联规则与闭项集

4.1 关联规则

4.1.1 相关基本概念和理论

4.1.2 闭项集相关概念及理论

4.1.3 频繁项集和闭频繁项集的比较

4.2 挖掘关联规则的过程

4.3 挖掘频繁项集经典算法

4.3.1 Apriori 算法基本思想

4.3.2 Apriori 算法描述

4.3.3 Apriori 算法中存在的问题

4.4 挖掘闭频繁项集经典算法概述

4.5 本章小结

第五章 CFIs_Webmining:基于闭频繁项集的Web 日志挖掘算法

5.1 问题的提出

5.2 最小关联规则的相关概念

5.3 挖掘闭频繁项集及建格的快速算法Charm_l 算法

5.4 基于格结构挖掘无冗余最小关联规则

5.5 CFIs_Webmining 算法设计与实现

5.6 本章小结

第六章 总结

致谢

参考文献

展开▼

摘要

随着信息技术的飞速发展,数据库应用的不断深化,数据挖掘已成为当今研究的热点。Web日志挖掘是Web数据挖掘中非常重要的一个研究领域和方向。通过分析和发现Web日志记录中的规律,可以挖掘出Web用户潜在的使用规律和模式,这可被广泛用于发现电子商务中的潜在客户、提高Web服务的质量和效率以及优化企业信息门户性能等领域。然而,传统的基于关联规则的Web日志挖掘方法都是基于一般频繁项的,这类方法往往产生大量的候选规则,且存在大量冗余的规则,对时间和主存空间都是一种挑战。然而,闭频繁项集的数量远小于一般频繁项集,而且通过闭频繁项集可以得到所有的频繁项集,通过闭频繁项集产生的关联规则能得到所有的规则。对此,本文提出了一种基于闭频繁项集的Web日志挖掘算法—CFIs_Webmining,该算法在CHARM_L挖掘产生闭频繁项集格结构的基础上进一步提取最小关联规则,从而在一定程度上解决了以往基于一般频繁项集的关联规则挖掘算法出现的问题。本文首先阐述了课题的研究背景及Web日志挖掘的国内外研究现状,然后对数据挖掘、Web数据挖掘和Web日志挖掘进行了概述;接着在Web日志访问模式挖掘研究方面,重点研究了关联规则及其经典挖掘算法:Apriori算法和CHARM算法;然后介绍了闭频繁项集的概念,及高效挖掘闭频繁项集CHARM算法,还有在CHARM算法基础上挖掘产生闭频繁项集格结构的CHARM_L算法,同时引入了最小关联规则的概念,后两者都是构成CFIs_Webmining的重要组成部分。本文通过大量的实验证明了CFIs_Webmining算法的有效性。最后以周口师范校园网Web日志为数据源,运用本文提出的CFIs_Webmining算法,对经过数据预处理后的日志文件进行分析,得到了有价值的规则,并提出了对改进该网站的建议和改进方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号