声明
摘要
第1章 绪论
1.1 研究背景及意义
1.1.1 文本分类的产生背景
1.1.2 文本分类的应用
1.2 国内外研究现状
1.3 本文研究内容
1.4 本文组织结构
第2章 文本分类相关技术
2.1 基于知识工程的文本分类
2.2 基于机器学习的自动文本分类
2.2.1 文本分类定义
2.2.2 文本分类特点
2.2.3 文本分类流程
2.3 文本预处理
2.3.1 文本特征项
2.3.2 不同特征比较
2.3.3 文本预处理
2.4 文本特征降维处理
2.4.1 特征维数
2.4.2 特征选择
2.4.3 特征抽取
2.5 文本表示方法
2.5.1 向量空间模型
2.5.2 布尔模型
2.6 本章小结
第3章 权重计算方法及其改进
3.1 权重因子
3.1.1 词频因子
3.1.2 文本集频率因子
3.1.3 常用的权重因子
3.2 传统TF-IDF
3.3 TF-IDF的相关改进
3.4 本文改进
3.4.1 基于特征项的类间分布信息的TF-IDF的改进
3.4.2 基于特征项的类内分布信息的TF-IDF的改进
3.4.3 基于特征项的类别分布信息的TF-IDF的改进
3.5 本章小结
第4章 自动文本分类系统设计
4.1 文本分类系统整体框架
4.2 预处理方法
4.3 特征降维处理
4.4 文本分类方法
4.4.1 支持向量机分类方法
4.4.2 朴素贝叶斯分类方法
4.4.3 K近邻分类方法
4.4.4 决策树分类方法
4.4.5 神经网络分类方法
4.5 分类性能评价
4.5.1 采样方法
4.5.2 评价指标
4.6 本章小结
第5章 实验分析
5.1 实验数据简介
5.2 基于Reuters-21578的实验结果及分析
5.3 基于20 Newsgroups的实验结果分析
5.4 本章小结
第6章 总结与展望
6.1 本文工作总结
6.2 下一步工作展望
参考文献
个人简历 在学期间发表的学术论文与研究成果
致谢