基于MapReduce的CLOPE并行聚类算法

王玉平; 郝杨杨; 黄有方

首页> 中文期刊> 《广西大学学报：自然科学版》 >基于MapReduce的CLOPE并行聚类算法

基于MapReduce的CLOPE并行聚类算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

事务型数据的CLOPE聚类算法在运行速度、内存开销和聚类效果方面表现优异,但随着数据量飞速增长,其运行时间也随之急剧变长甚至无法使用。为此,利用Hadoop框架下的YARN资源管理系统,对CLOPE算法进行改进,提出基于MapReduce架构的CLOPE并行聚类算法。该算法由两个阶段组成,第一阶段执行Map操作,Hadoop架构对数据集分片并行并运行CLOPE算法聚类成小聚簇;第二阶段执行Reduce操作,通过多次迭代把各个小聚簇聚合成大聚簇。实验结果证明：分析1 000条20 000个属性的亚马逊数据记录,MapReduce-CLOPE算法耗时稳定在22 s,而CLOPE算法耗时在50-60 s。随着数据量的增大,CLOPE算法无法计算而MapReduce-CLOPE算法耗时基本稳定。因此,MapReduce-CLOPE算法在计算时间方面要显著地优于CLOPE算法,且计算时间受数据量大小的影响较小,而在聚类质量方面与CLOPE算法相近。

著录项

来源
《广西大学学报：自然科学版》 |2016年第5期|1567-1575|共9页
作者
王玉平; 郝杨杨; 黄有方;
展开▼
作者单位

上海海事大学信息化办公室;

上海海事大学物流研究中心;

展开▼
原文格式 PDF
正文语种 chi
中图分类程序设计、软件工程;
关键词
数据挖掘; CLOPE; MapReduce; 聚类算法; Hadoop;

相似文献

中文文献
外文文献
专利

1. 基于MapReduce和IFOA的并行密度聚类算法 [J] . 胡健 ,徐锴滨 ,毛伊敏 . 计算机应用研究 . 2021,第005期
2. 基于MapReduce和改进人工蜂群算法的并行划分聚类算法 [J] . 陶涛 ,毛伊敏 . 科学技术与工程 . 2021,第021期
3. 基于MapReduce并行化计算的大数据聚类算法 [J] . 张文杰 ,蒋烈辉 . 计算机应用研究 . 2020,第001期
4. 基于MapReduce的KMeans聚类算法的并行化实现 [J] . 张友海 ,李锋刚 . 九江学院学报（自然科学版） . 2017,第001期
5. 基于MapReduce的并行MRACO-PAM聚类算法 [J] . 赵宝文 ,徐华 . 计算机工程与科学 . 2017,第010期
6. k-means聚类算法的MapReduce并行化实现 [C] . 李锦文 ,张清辉 ,魏化震 . 第三届中国国家网格学术年会 . 2011
7. 基于MapReduce的文本聚类算法并行化研究与实现 [A] . 徐春华 . 2017

基于MapReduce的CLOPE并行聚类算法

摘要

著录项

相似文献

相关主题

期刊订阅