首页> 中文学位 >基于粒计算数据重要性标记的实例约减
【6h】

基于粒计算数据重要性标记的实例约减

代理获取

目录

声明

致谢

变量注释

1 绪论

1.1 研究背景

1.2 研究动机及目标

1.3 研究内容及方法

(1)基于粒化数据重要性标记的快速实例约减

(2)融合降噪和特征降维的改进粒化数据重要性标记实例约减

1.4 研究成果及意义

(1)针对已有实例约减算法不具有一般性以及算法耗时的问题,提出了基于粒化数据重要性标记的快速实例约减算法

(2)为进一步提升实例约减子集分类精度,提出了融合降噪和特征降维的改进粒化数据重要性标记实例约减算法

1.5 本文结构

1.6 本章小结

2 实例约减与粒计算相关工作

2.1 引言

2.2 实例约减相关概念

2.3 实例约减相关研究成果概述

2.3.1 封装算法

2.3.2 过滤算法

2.4.1 粒计算与数据处理

2.4.2 粒计算在数据约减方面的应用

2.5 本章小结

3 基于粒化数据重要性标记的快速实例约减

3.1研究背景

3.2 基于粒化策略的数据重要性标记

3.2.1 数据粒化

3.2.2基于Hausdorff距离的数据重要性标记

3.3.1 基于数据重要性实例约减示例

3.2.3算法描述

3.4.1数据集的选取

3.4.2实验参数设置

3.4.3数据粒化映射合理性验证

3.4.4实例约减可视化

3.4.5实例约减实验对比及分析

3.5 本章小结

4 融合降噪和特征降维的改进粒化数据重要性标记

4.1 研究背景

4.2.1 噪声过滤器—基于裁剪的实例约减算法

4.2.2 主元分析(Principal Component Analysis,PCA)

4.2.3 欧氏距离和VDM测度融合的数据重要性标记方法

4.3 算法流程

4.4.1 实验设置

4.4.2 噪声过滤器ENN的有效性验证

4.4.3粒化映射与PCA实验效果对比

4.4.4实例约减结果可视化

4.4.5 算法整体性能对比与分析

4.5本章小结

5 总结与展望

5.1 本文工作

(1)基于粒化数据重要性标记的快速实例约减算法

(2)融合降噪和特征降维的改进粒化据重要性标记实例约减算法

5.2 本文创新之处

5.3 进一步研究工作

参考文献

作者简历

学位论文原创性声明

学位论文数据集

展开▼

摘要

当前,不同领域产生的数据量呈指数趋势增长,然而,这种增长趋势严重制约了基于实例的机器学习算法分析和处理数据的能力,且数据存储也成为亟待解决的问题。因此,实例约减成为大规模数据分析和处理的重要研究内容之一。已有实例约减算法处理大规模数据时,往往面临算法耗时、约减率和约减子集的数据分析性能难以平衡的问题。本文针对上述问题,研究基于粒计算数据重要性标记的实例约减算法,主要内容如下: (1)基于粒化数据重要性标记的快速实例约减算法:借鉴粒计算在特征选择领域的研究成果,提出一种基于粒化数据重要性标记的快速实例约减算法。首先,构造二维粒化映射函数,将原始数据集的高维特征粒化降维至低维粒空间,并采用K-means聚类的粒化方式将低维空间中的实例粒化为K个粒子;然后,分别针对K个粒子,基于Hausdorff距离标记各粒子中每个实例的重要性;选择重要性权重低于设定阈值的实例作为待删除对象集,进一步计算待删除实例集中具有相同重要性实例的拥挤度,删除拥挤度较大的实例,以保证数据分布的均匀性。将所提算法应用于18个UCI公共数据集上,通过与7种经典的实例约减算法进行比较说明该算法性能。实验结果表明,在相同约减率下,所提算法可显著降低大数据集实例约减时间,并较好地保持数据集分类精度。 (2)融合降噪和特征降维的改进粒化数据重要性标记实例约减算法:研究内容(1)所提算法虽能快速地完成约减过程,但大数据集约减子集的分析精度相对降低,为此,在研究内容(1)的基础上,进一步提出融合降噪和特征降维的改进粒化数据重要性标记实例约减算法。首先,利用裁剪最近邻算法去除数据集中的含噪实例,并给出基于主元分析的粒化映射方法;针对同时包含数值型和类别型的混合数据集,设计欧氏距离和VDM测度融合的实例重要性标记策略。将所提算法应用于内容(1)的典型数据集,并通过与内容(1)和经典实例约减算法的比较说明其性能。实验结果表明,在相同约减率下,所提算法在可接受约减时间内,所得约减子集数据分析精度明显提高。 本文研究内容采用“分而治之”的策略,经数据粒化、数据重要性标记,可快速从原始数据集中去除较大比例不重要数据。研究内容(1)所提算法对大规模数据进行实例约减具有明显的低计算代价优势;研究内容(2)所提算法在研究内容(1)的基础上进一步改进,通过去噪、降维以及基于混合距离测度的数据重要性标记方法,从而能更精确地保留重要实例,提高约减子集的分析精度。

著录项

  • 作者

    刘恋;

  • 作者单位

    中国矿业大学;

    中国矿业大学(江苏);

  • 授予单位 中国矿业大学;中国矿业大学(江苏);
  • 学科 控制工程
  • 授予学位 硕士
  • 导师姓名 孙晓燕;
  • 年度 2019
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    计算数据;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号