首页> 中文期刊> 《数据采集与处理》 >大数据随机样本划分模型及相关分析计算技术

大数据随机样本划分模型及相关分析计算技术

         

摘要

设计了一种新的适用于大数据的管理和分析模型——大数据随机样本划分(Random sample partition,RSP)模型,它是将大数据文件表达成一系列RSP数据块文件的集合,分布存储在集群节点上.RSP的生成操作使每个RSP数据块的分布与大数据的分布保持统计意义上的一致,因此,每个RSP数据块是大数据的一个随机样本数据,可以用来估计大数据的统计特征,或建立大数据的分类和回归模型.基于RSP模型,大数据的分析任务可以通过对RSP数据块的分析来完成,不需要对整个大数据进行计算,极大地减少了计算量,降低了对计算资源的要求,提高了集群系统的计算能力和扩展能力.本文首先给出RSP模型的定义、理论基础和生成方法;然后介绍基于RSP数据块的渐近式集成学习Alpha计算框架;之后讨论基于RSP模型和Alpha框架的大数据分析相关计算技术,包括:数据探索与清洗、概率密度函数估计、有监督子空间学习、半监督集成学习、聚类集成和异常点检测;最后讨论RSP模型在分而治之大数据分析和抽样方法上的创新,以及RSP模型和Alpha计算框架实现大规模数据分析的优势.

著录项

  • 来源
    《数据采集与处理》 |2019年第3期|373-385|共13页
  • 作者单位

    深圳大学计算机与软件学院大数据技术与应用研究所;

    深圳;

    518060;

    深圳大学大数据系统计算技术国家工程实验室;

    深圳;

    518060;

    深圳大学计算机与软件学院大数据技术与应用研究所;

    深圳;

    518060;

    深圳大学大数据系统计算技术国家工程实验室;

    深圳;

    518060;

    深圳大学计算机与软件学院大数据技术与应用研究所;

    深圳;

    518060;

    深圳大学大数据系统计算技术国家工程实验室;

    深圳;

    518060;

    深圳大学计算机与软件学院大数据技术与应用研究所;

    深圳;

    518060;

    深圳大学大数据系统计算技术国家工程实验室;

    深圳;

    518060;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 图像信号处理;
  • 关键词

    大数据; 随机样本划分; 渐近式集成学习; 人工智能;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号