基于Spark的关联规则挖掘算法并行化研究

许德心; 李玲娟

首页> 中文期刊> 《计算机技术与发展》 >基于Spark的关联规则挖掘算法并行化研究

基于Spark的关联规则挖掘算法并行化研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

关联规则挖掘是一项重要的数据挖掘任务,关联规则挖掘算法能从数据中挖掘出潜在的关联关系,其中Apriori算法是典型代表.Spark平台是一个分布式的基于内存的适合迭代计算的大数据框架.以提高强关联规则的挖掘效率为目标,设计了一种Apriori算法基于Spark的并行化方案.该方案利用Spark平台的分布式架构以及集群调度机制,将事务数据集分发给多个子节点,各子节点调用transformation操作求得局部候选项集及支持度,并存储于内存中;汇总节点中的局部候选项集产生全局候选项集和全局频繁项集;不断迭代,直到下一级候选项集不存在为止.性能测试实验结果表明,基于Spark平台的并行化Apriori算法可以有效地分析大型数据项集之间的频繁项集和提取强关联规则,具有较高的准确性和时效性.%Association rule mining is an important task of data mining. Association rule mining algorithm can excavate potential relationships from data, among which Apriori algorithm is a typical representative. The Spark platform is a distributed memory-based big data framework suitable for iterative computing. In order to improve the mining efficiency of strong association rules, we propose a parallelization scheme of Apriori algorithm based on Spark. The scheme utilizes distributed architecture and cluster scheduling mechanism of the Spark platform to distribute the transaction data set to multiple sub nodes. Each sub node invokes transformation operation to obtain local candidate itemsets and support degree, and stores them in memory. Local candidate itemsets in summary nodes generate global candidate itemsets and global frequent itemsets. The process is iterated until the next level candidate set does not exist. The performance test experiment shows that the parallel Apriori algorithm based on the Spark platform can effectively analyze the frequent itemsets in large data itemsets and extract strong association rules, with high accuracy and timeliness.

著录项

来源
《计算机技术与发展》 |2019年第3期|30-34|共5页
作者
许德心; 李玲娟;
展开▼
作者单位

南京邮电大学计算机学院;

江苏南京 210023;

南京邮电大学计算机学院;

江苏南京 210023;

展开▼
原文格式 PDF
正文语种 chi
中图分类算法理论;
关键词
Apriori; 关联规则; 并行化; Spark; 推荐算法; 频繁项集; 挖掘;

相似文献

中文文献
外文文献
专利

1. 基于Spark的并行关联规则挖掘算法研究综述 [J] . 刘莉萍 ,章新友 ,牛晓录 . 计算机工程与应用 . 2019,第009期
2. 基于Spark的并行化高效用项集挖掘算法 [J] . 何登平 ,何宗浩 ,李培强 . 计算机工程与科学 . 2019,第010期
3. 基于Spark的精准关联规则挖掘算法实现 [J] . 李融 ,杨淙钧 ,高泽 . 信息技术 . 2018,第002期
4. 基于Spark的层次聚类算法的并行化研究 [J] . 余胜辉 ,李玲娟 . 计算机技术与发展 . 2020,第006期
5. 基于Spark的协同过滤算法并行化研究 [J] . 陆俊尧 ,李玲娟 . 计算机技术与发展 . 2019,第001期
6. 面向大数据的关联规则挖掘算法并行化设计 [C] . XU Hui ,徐慧 ,SUN Qi . 中国计算机用户协会网络应用分会2014年第十八届网络新技术与应用年会 . 2014
7. 关联规则算法优化及基于Spark的并行化研究 [A] . 刘文祎 . 2019

基于Spark的关联规则挖掘算法并行化研究

摘要

著录项

相似文献

相关主题

期刊订阅