一种面向大数据分析的快速并行决策树算法

陆旭; 陈毅红; 熊章瑞; 廖彬宇

首页> 中文期刊>云南大学学报：自然科学版 >一种面向大数据分析的快速并行决策树算法

一种面向大数据分析的快速并行决策树算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

为了提高基于大规模数据的决策树训练效率,提出了一种基于Spark平台的并行决策树算法(SPDT).首先,采用数据按列分区的方法,把单个属性列完整地保留在一个分区内,使缓存该分区数据的数据节点能独立完成信息熵的计算,以减少数据节点之间的信息交流造成的网络资源的占用.然后,数据在按列分区后以稠密向量的形式缓存于内存中,SPDT对数据进行压缩,以减少对内存的占用.最后,SPDT采用基于边界点类别判定的连续属性离散化方法来处理连续属性,减少决策树训练过程中信息熵计算的频次,并提出使用信息增益比划分训练数据集的方法,以减少信息增益计算对多属性值属性的依赖.实验结果表明,在树的训练效率方面,SPDT在保持分类精度的情况下,比Apache Spark-MLlib决策树算法(MLDT)以及基于Spark平台的垂直划分决策树算法(Yggdrasil)有明显的提升.

著录项

来源
《云南大学学报：自然科学版》|2020年第2期|244-251|共8页
作者
陆旭; 陈毅红; 熊章瑞; 廖彬宇;
展开▼
作者单位

西华师范大学计算机学院,四川南充637002;

物联网感知与大数据分析南充市重点实验室,四川南充637002;

展开▼
原文格式 PDF
正文语种 chi
中图分类算法理论;
关键词
决策树; Apache Spark; 数据并行; 大数据; 连续属性;

相似文献

中文文献
外文文献
专利

1. 面向大数据分析的决策树算法研究 [J] . 杨伟光(文)1 . 电子技术与软件工程 . 2018,第023期
2. 面向大数据分析的决策树算法 [J] . 何迪 . 信息系统工程 . 2017,第007期
3. 面向大数据分析的决策树算法 [J] . 张棪 ,曹健 . 计算机科学 . 2016,第0z1期
4. 一种面向并行设计规划的快速布局模型与算法 [J] . 杨强 ,李思昆 ,郭阳 . 计算机研究与发展 . 2001,第011期
5. 一种面向不平衡分类的改进多决策树算法 [J] . 段化娟 ,尉永清 ,刘培玉 . 广西师范大学学报（自然科学版） . 2020,第002期
6. 面向结构网格自适应并行计算的矩形区域求差集快速算法 [C] . Liu Xu ,刘旭 ,Xu Xiaowen . 2015全国高性能计算学术年会 . 2015
7. 广域云下面向快速大数据分析的调度算法研究 [A] . 李悦 . 2017

一种面向大数据分析的快速并行决策树算法

摘要

著录项

相似文献

相关主题

期刊订阅