大数据背景下并行动态关联规则挖掘研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

目前，大数据技术在社会各个领域和层面都发挥着巨大作用，且地位不断跃升。能否整合并利用好大数据已经成为政府和各经济体事业成败的关键。作为一种新型的战略资源，大数据具有明显的自身特征：体量大、种类多、产生速度快、实时性要求高、价值密度低，这意味着传统的单机串行算法已不能满足大数据的处理需求，面向多机、并行、分布式的大数据处理方式变得越来越重要。
　　数据挖掘是挖掘数据潜在价值的关键技术，关联规则技术作为一种经典的数据挖掘方法备受关注。传统的关联规则技术认为规则是静态的、一成不变的，只要被挖掘出来便可永久用于指导生产实践。然而，现实中的规则是随着时间变化的，为更好地描述这种规则随时间变化的特性，本文采用了支持度向量SV和置信度向量CV，重点研究动态关联规则的并行分层挖掘方法。
　　首先，本文通过对现有并行技术、并行关联规则挖掘算法和动态关联规则挖掘算法进行研究，提出了一种能够实时高效地处理大量数据的并行关联规则挖掘算法——基于划分的并行分层关联规则挖掘（PHARM）算法。该算法基本思想是将整个数据集D随机分割成若干个非重叠子数据集，并且每个子数据集还可继续划分成更小的子集，进而并行分层地挖掘出局部频繁项集；根据频繁项集先验性质，连接局部频繁项集得到全局候选项集；扫描D统计出每个候选项集的实际支持度，以确定全局频繁项集。并通过建模分析和实验，证明了该算法的高效性和在数据量较大时具有的明显优势。
　　其次，本文在两阶段ITS算法的基础上，将并行分层挖掘思想应用到动态关联规则挖掘的第一阶段，提出了两种适用于动态关联规则挖掘的高效算法：基于划分的并行分层动态关联规则挖掘（PDMD）算法和基于构建候选矩阵的并行分层动态关联规则挖掘（PDMC）算法。前者为找出全局频繁项集L及其频数向量FV需要对整个数据集进行一次扫描；后者利用局部频繁项集构建候选矩阵，不用再次扫描数据库即可获得全局频繁项集L及其频数向量FV。

著录项

作者
田苗凤;
展开▼
作者单位

兰州交通大学;

展开▼
授予单位兰州交通大学;
学科计算机应用技术
授予学位硕士
导师姓名张忠林;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.131;
关键词
数据挖掘; 并行算法; 动态关联规则;

相似文献

中文文献
外文文献
专利

1. 大数据环境下关联规则并行分层挖掘算法研究 [J] . 张忠林 ,田苗凤 ,刘宗成 . 计算机科学 . 2016,第001期
2. Sp-IEclat:一种大数据并行关联规则挖掘算法 [J] . 李成严 ,辛雪 ,赵帅 . 哈尔滨理工大学学报 . 2021,第004期
3. Map Reduce计算模型下并行关联规则挖掘算法研究 [J] . 邵全义 ,郭雯雯 . 电脑知识与技术 . 2018,第005期
4. 大规模数据集事务间关联规则挖掘方法研究——大数据挖掘方法研究之二 [J] . 张诤 ,王惠文 . 生产力研究 . 2015,第001期
5. 大规模数据集关联规则挖掘方法研究——大数据挖掘方法研究之一 [J] . 张诤 ,王惠文 . 生产力研究 . 2014,第011期
6. 面向大数据的关联规则挖掘算法并行化设计 [C] . XU Hui ,徐慧 ,SUN Qi . 中国计算机用户协会网络应用分会2014年第十八届网络新技术与应用年会 . 2014
7. 大数据背景下的关联规则挖掘算法研究 [A] . 邓国群 . 2018

大数据背景下并行动态关联规则挖掘研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅