致谢
摘要
Abstract
1 绪论
1.1 选题背景
1.2 研究意义
1.3 国内外研究现状
1.4 本文主要工作
2 数据挖掘相关知识介绍
2.1 数据挖掘的广义观点
2.2 数据挖掘与分类
2.2.1 数据挖掘技术简介
2.2.2 算法的选择及依据
2.2.3 分类方法概述
2.3 决策树分类方法综述
2.3.1 决策树的表示
2.3.2 决策树分类方法的步骤
2.3.3 决策树算法的优势
2.3.4 决策树算法的发展
3 主要决策树算法介绍
3.1 ID3 算法
3.1.1 信息熵的相关定义
3.1.2 ID3 算法的执行过程
3.1.3 ID3 算法的不足之处
3.2 C4.5 算法
3.2.1 用C4.5 算法构造决策树
3.2.2 C4.5 对连续属性的处理
3.2.3 C4.5 算法的剪枝技术
3.2.4 模型的评估
3.3 C4.5 在使用中遇到的问题
4 数据的收集与预处理
4.1 引言
4.2 原始数据录入
4.3 数据预处理过程
4.3.1 数据清理
4.3.2 数据变换
4.3.3 数据约简
4.4 属性的约简
4.4.1 知识系统
4.4.2 知识的依赖性和属性的重要性
4.4.3 确定属性集的步骤
5 C4.5 的改进和系统的实现
5.1 引言
5.2 数据收集与预处理
5.2.1 确定关键属性
5.2.2 对条件属性相同但分类不同的记录的处理
5.3 模型的构建
5.3.1 训练样本和测试样本的抽取
5.3.2 模型的构建
5.4 决策树的剪枝
5.5 算法的验证
5.6 系统的实现
5.6.1 需求分析
5.6.2 系统流程图
5.6.3 数据采集与决策树的生成
5.6.4 系统的功能实现
结论
参考文献
附录A 合向量的求解代码
附录B 新剪枝算法的核心代码
作者简历
学位论文数据集