基于变精度粗糙集的连续属性离散化方法及数据预处理方法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

数据挖掘是当今国际人工智能和数据库研究最活跃的新兴领域之一，是数据库知识发现KDD(Knowledgediscoveryindatabases)的核心，它旨在发现数据中隐藏的、未知的、潜在有用的知识，本质上是在大的数据集合中寻找数据间的规则和普遍模式。连续属性的离散化(discretization)即实型空间向整型空间的映射，是许多数据挖掘过程中数据预处理阶段的重要步骤。由于它在减少后继算法的时空复杂度，提高系统的鲁棒性上的重要作用而被广泛研究。由Pawlak(1982)提出的粗糙集(Roughset)理论是关于数据推理的强大工具，这个方法已经被成功应用于机器学习、知识获取、决策分析、知识发现、模式识别、专家系统和决策支持系统等领域。粗糙集理论的特点是，无需提供除待求解问题所需处理数据集合之外的任何先验信息。本文主要研究了以下问题：1)基于变精度粗糙集的连续属性离散化。变精度粗糙集模型是由W.Ziarko在基本粗糙集理论的基础上引入误差因子β而得到的，引入β因子的目的在于将精确的二元等价关系推广为一般的二元关系。本文提出了基于变精度粗糙集模型的连续属性离散化的方法，其特点在于可将原来没有划入正域的集合划入正域，以增强泛化能力。这种方法计算过程简单，易于实现。 2)基于多连续属性离散化的数据预处理方法。目前包括C4.5在内的很多离散化算法都具有以下特征：有监督、鲁棒性、针对单一属性。这些特征容易造成一些异常数据被当作噪声数据忽略，而一些错误数据则由于没有及时清除而影响了分类结果。本文针对这一问题提出了基于多连续属性离散化的预处理方法，用这一方法对离散化结果进行修正后，实现了对噪声数据、异常数据、错误数据的区别对待。文中以C4.5为比较对象，分别举例说明了对三种数据的判断标准和处理方法。

著录项

作者
孔祥明;
展开▼
作者单位

东北师范大学;

展开▼
授予单位东北师范大学;
学科电路与系统
授予学位硕士
导师姓名卫金茂;
年度 2006
页码
总页数
原文格式 PDF
正文语种中文
中图分类数据处理、数据处理系统;
关键词
数据挖掘; 实型空间; 整型空间; 粗糙集理论; 变精度粗糙集; 数据预处理;

相似文献

中文文献
外文文献
专利

1. 基于属性重要性和样本信息熵的多连续属性离散化后处理方法 [J] . 康曙光 ,裴志利 ,孔英 . 内蒙古民族大学学报（自然科学版） . 2009,第002期
2. 一种新的基于连续属性离散化的属性约简方法 [J] . 胡德敏 ,冯科峰 . 计算机应用研究 . 2009,第001期
3. 基于粒度商的连续属性离散化方法 [J] . 李萍 ,储亚伟 ,范敏 . 阜阳师范学院学报（自然科学版） . 2015,第004期
4. 基于LVQ神经网络的连续属性离散化方法 [J] . 南书坡 ,韩利华 ,程聪 . 福建电脑 . 2014,第011期
5. 基于FCM的连续属性模糊离散化方法 [J] . 胡运禄 ,于津 . 福建电脑 . 2013,第003期
6. 一种基于模糊关系的连续属性离散化方法 [C] . . 第六届中国不确定系统年会 . 2008
7. 基于变精度粗糙集理论的多属性离散化方法研究 [A] . 胡振华 . 2018

基于变精度粗糙集的连续属性离散化方法及数据预处理方法

目录

摘要

著录项

相似文献

相关主题

期刊订阅