首页> 中文学位 >大数据背景下并行动态关联规则挖掘研究
【6h】

大数据背景下并行动态关联规则挖掘研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 引 言

1.1 研究的背景、意义

1.2 研究的内容与创新

1.3 本文的组织结构

2 大数据背景下的数据挖掘

2.1 大数据综述

2.2 数据挖掘流程及工具

2.3 大数据关键技术

2.4 大数据现状与展望

3 并行分层关联规则挖掘研究

3.1 频繁项集与关联规则

3.2 关联规则挖掘

3.3关联规则并行分层挖掘(PHARM)算法

3.4 本章小结

4 并行分层动态关联规则挖掘研究

4.1 动态关联规则挖掘研究

4.2基于划分的并行分层动态关联挖掘算法

4.3基于构建候选矩阵的并行分层动态关联挖掘算法

4.4 本章小结

结论

致谢

参考文献

附录A 并行分层动态关联规则挖掘算法核心源码

攻读学位期间的研究成果

展开▼

摘要

目前,大数据技术在社会各个领域和层面都发挥着巨大作用,且地位不断跃升。能否整合并利用好大数据已经成为政府和各经济体事业成败的关键。作为一种新型的战略资源,大数据具有明显的自身特征:体量大、种类多、产生速度快、实时性要求高、价值密度低,这意味着传统的单机串行算法已不能满足大数据的处理需求,面向多机、并行、分布式的大数据处理方式变得越来越重要。
  数据挖掘是挖掘数据潜在价值的关键技术,关联规则技术作为一种经典的数据挖掘方法备受关注。传统的关联规则技术认为规则是静态的、一成不变的,只要被挖掘出来便可永久用于指导生产实践。然而,现实中的规则是随着时间变化的,为更好地描述这种规则随时间变化的特性,本文采用了支持度向量SV和置信度向量CV,重点研究动态关联规则的并行分层挖掘方法。
  首先,本文通过对现有并行技术、并行关联规则挖掘算法和动态关联规则挖掘算法进行研究,提出了一种能够实时高效地处理大量数据的并行关联规则挖掘算法——基于划分的并行分层关联规则挖掘(PHARM)算法。该算法基本思想是将整个数据集D随机分割成若干个非重叠子数据集,并且每个子数据集还可继续划分成更小的子集,进而并行分层地挖掘出局部频繁项集;根据频繁项集先验性质,连接局部频繁项集得到全局候选项集;扫描D统计出每个候选项集的实际支持度,以确定全局频繁项集。并通过建模分析和实验,证明了该算法的高效性和在数据量较大时具有的明显优势。
  其次,本文在两阶段ITS算法的基础上,将并行分层挖掘思想应用到动态关联规则挖掘的第一阶段,提出了两种适用于动态关联规则挖掘的高效算法:基于划分的并行分层动态关联规则挖掘(PDMD)算法和基于构建候选矩阵的并行分层动态关联规则挖掘(PDMC)算法。前者为找出全局频繁项集L及其频数向量FV需要对整个数据集进行一次扫描;后者利用局部频繁项集构建候选矩阵,不用再次扫描数据库即可获得全局频繁项集L及其频数向量FV。

著录项

  • 作者

    田苗凤;

  • 作者单位

    兰州交通大学;

  • 授予单位 兰州交通大学;
  • 学科 计算机应用技术
  • 授予学位 硕士
  • 导师姓名 张忠林;
  • 年度 2015
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.131;
  • 关键词

    数据挖掘; 并行算法; 动态关联规则;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号