首页> 中文期刊> 《计算机技术与发展》 >基于Spark的层次聚类算法的并行化研究

基于Spark的层次聚类算法的并行化研究

         

摘要

cqvip:随着大数据时代的来临,传统的计算模式已经不足以支撑如此大量的数据。基于内存计算的大数据并行化计算框架Spark的出现很好地解决了这一问题。CURE是一种基于取样和代表点的层次聚类算法,它采用迭代的方式,自底向上地合并两个距离最近的簇。与传统的聚类算法相比,CURE算法对异常点的敏感度更小。但是在处理大量数据的情况下,CURE算法存在着因反复迭代而消耗大量时间的问题。文中利用了Spark的RDD编程模型的可伸缩性和分布式等特点,实现了对CURE算法计算过程的并行化,提升了该算法对数据的处理速度,使算法能够适应数据规模的扩展,并且提高了聚类的性能。在Spark上运用CURE算法对公开数据集的并行化处理结果表明,基于Spark的CURE算法并行化既保证了聚类准确率又提高了算法的时效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号