MapReduce框架下基于抽样的分布式K-Means聚类算法

杨杰明; 吴启龙; 曲朝阳; 杨烁; 阚中峰; 高冶

首页> 中文期刊> 《吉林大学学报（理学版）》 >MapReduce框架下基于抽样的分布式K-Means聚类算法

MapReduce框架下基于抽样的分布式K-Means聚类算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

We proposed a distributed K-Means clustering algorithm based on sampling under MapReduce framework,in order to solve the problems of high time cost of parallel execution of K-Means algorithm in the massive data environment.The algorithm used sampling algorithm to reduce the original data size on the premise of ensuring the invariant data distribution,and the clustering algorithm was optimized under the MapReduce framework. The experimental results demonstrate that the algorithm can effectively reduce the clustering time while maintaining good clustering effect,and it has high execution efficiency and good scalability for large scale datasets.%提出一种MapReduce框架下基于抽样的分布式K-Means聚类算法,解决海量数据环境下并行执行K-Means算法时,时间开销较大的问题.该算法使用抽样方法,在保证数据分布不变的前提下,对数据集的规模进行约减,并在MapReduce框架下对聚类算法进行优化.实验结果表明,该算法在保持良好聚类效果的同时,能有效缩短聚类时间,对大规模数据集具有较高的执行效率和较好的可扩展性.

著录项

来源
《吉林大学学报（理学版）》 |2017年第1期|109-115|共7页
作者
杨杰明; 吴启龙; 曲朝阳; 杨烁; 阚中峰; 高冶;
展开▼
作者单位

东北电力大学信息工程学院,吉林吉林 132012;

东北电力大学信息工程学院,吉林吉林 132012;

东北电力大学信息工程学院,吉林吉林 132012;

国网吉林供电公司信息通信分公司,吉林吉林 132000;

国网吉林供电公司信息通信分公司,吉林吉林 132000;

国网吉林供电公司信息通信分公司,吉林吉林 132000;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
抽样; MapReduce; 分布式计算; K-Means聚类算法;

相似文献

中文文献
外文文献
专利

1. 基于MapReduce框架下的K-means聚类算法的改进 [J] . 宋阳 ,石鸿雁 . 计算机与现代化 . 2019,第008期
2. K-Means聚类算法在MapReduce框架下的实现 [J] . 杨健兵 . 软件导刊 . 2016,第012期
3. K-Means聚类算法在MapReduce框架下的实现 [J] . 杨健兵 . 软件导刊 . 2016,第012期
4. 基于抽样和最大最小距离法的并行K-means聚类算法 [J] . 刘燕 . 智能计算机与应用 . 2018,第006期
5. 基于抽样和最大最小距离法的并行K-means聚类算法 [J] . 刘燕 . 智能计算机与应用 . 2018,第006期
6. 一种分布式环境下的改进k-Means聚类算法 [C] . 林晓斌 ,叶东毅 . 第七届中国Rough集与软计算、第一届中国Web智能、第一届中国粒计算联合会议（CRSSC-CWI-CGrC'2007） . 2007
7. 人工鱼群和k-means相结合的聚类算法研究与分布式实现 [A] . 陈书会 . 2016

MapReduce框架下基于抽样的分布式K-Means聚类算法

摘要

著录项

相似文献

相关主题

期刊订阅