首页> 中文学位 >基于变精度粗糙集的连续属性离散化方法及数据预处理方法
【6h】

基于变精度粗糙集的连续属性离散化方法及数据预处理方法

代理获取

目录

文摘

英文文摘

独创性声明及学位论文版权使用授权书

引 言

第一章离散化

第二章基于变精度粗糙集的连续属性离散化

第三章基于多连续属性离散化的数据预处理方法

结语

参考文献

致谢

展开▼

摘要

数据挖掘是当今国际人工智能和数据库研究最活跃的新兴领域之一,是数据库知识发现KDD(Knowledgediscoveryindatabases)的核心,它旨在发现数据中隐藏的、未知的、潜在有用的知识,本质上是在大的数据集合中寻找数据间的规则和普遍模式。 连续属性的离散化(discretization)即实型空间向整型空间的映射,是许多数据挖掘过程中数据预处理阶段的重要步骤。由于它在减少后继算法的时空复杂度,提高系统的鲁棒性上的重要作用而被广泛研究。 由Pawlak(1982)提出的粗糙集(Roughset)理论是关于数据推理的强大工具,这个方法已经被成功应用于机器学习、知识获取、决策分析、知识发现、模式识别、专家系统和决策支持系统等领域。粗糙集理论的特点是,无需提供除待求解问题所需处理数据集合之外的任何先验信息。 本文主要研究了以下问题:1)基于变精度粗糙集的连续属性离散化。变精度粗糙集模型是由W.Ziarko在基本粗糙集理论的基础上引入误差因子β而得到的,引入β因子的目的在于将精确的二元等价关系推广为一般的二元关系。本文提出了基于变精度粗糙集模型的连续属性离散化的方法,其特点在于可将原来没有划入正域的集合划入正域,以增强泛化能力。这种方法计算过程简单,易于实现。 2)基于多连续属性离散化的数据预处理方法。目前包括C4.5在内的很多离散化算法都具有以下特征:有监督、鲁棒性、针对单一属性。这些特征容易造成一些异常数据被当作噪声数据忽略,而一些错误数据则由于没有及时清除而影响了分类结果。本文针对这一问题提出了基于多连续属性离散化的预处理方法,用这一方法对离散化结果进行修正后,实现了对噪声数据、异常数据、错误数据的区别对待。文中以C4.5为比较对象,分别举例说明了对三种数据的判断标准和处理方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号