首页> 中文学位 >基于TF-IDF的文本分类系统中权重计算和特征选择方法研究
【6h】

基于TF-IDF的文本分类系统中权重计算和特征选择方法研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景及意义

1.1.1 文本分类的产生背景

1.1.2 文本分类的应用

1.2 国内外研究现状

1.3 本文研究内容

1.4 本文组织结构

第2章 文本分类相关技术

2.1 基于知识工程的文本分类

2.2 基于机器学习的自动文本分类

2.2.1 文本分类定义

2.2.2 文本分类特点

2.2.3 文本分类流程

2.3 文本预处理

2.3.1 文本特征项

2.3.2 不同特征比较

2.3.3 文本预处理

2.4 文本特征降维处理

2.4.1 特征维数

2.4.2 特征选择

2.4.3 特征抽取

2.5 文本表示方法

2.5.1 向量空间模型

2.5.2 布尔模型

2.6 本章小结

第3章 权重计算方法及其改进

3.1 权重因子

3.1.1 词频因子

3.1.2 文本集频率因子

3.1.3 常用的权重因子

3.2 传统TF-IDF

3.3 TF-IDF的相关改进

3.4 本文改进

3.4.1 基于特征项的类间分布信息的TF-IDF的改进

3.4.2 基于特征项的类内分布信息的TF-IDF的改进

3.4.3 基于特征项的类别分布信息的TF-IDF的改进

3.5 本章小结

第4章 自动文本分类系统设计

4.1 文本分类系统整体框架

4.2 预处理方法

4.3 特征降维处理

4.4 文本分类方法

4.4.1 支持向量机分类方法

4.4.2 朴素贝叶斯分类方法

4.4.3 K近邻分类方法

4.4.4 决策树分类方法

4.4.5 神经网络分类方法

4.5 分类性能评价

4.5.1 采样方法

4.5.2 评价指标

4.6 本章小结

第5章 实验分析

5.1 实验数据简介

5.2 基于Reuters-21578的实验结果及分析

5.3 基于20 Newsgroups的实验结果分析

5.4 本章小结

第6章 总结与展望

6.1 本文工作总结

6.2 下一步工作展望

参考文献

个人简历 在学期间发表的学术论文与研究成果

致谢

展开▼

摘要

词频-逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)是一种经典的基于VSM模型的权重计算方法,其算法相对简单,非常便于计算,应用较多。但该方法比较粗糙,容易导致特征空间高维稀疏。基于传统的TF-IDF特征选择思想,本文引入类别描述因子,基于类内、类间信息修正TF-IDF权重因子,提出一种包含类别信息的TF-IDF-CD(Category Description,CD)模型。该模型的TF部分含有特征项的类内频数信息,IDF部分含有特征项的类间频数信息,突出类别贡献大的特征的权重,抑制次要特征权重。最后通过文本分类实验,将其在偏斜语料和均衡语料下分别与NB、KNN等分类器结合进行文本分类实验,比较其与TF-IDF、CTD等几种方法的分类精确度。结果显示,TF-IDF-CD方法在特征项较少时已有很好分类效果。相比TF-IDF,在不同语料以及不同分类器下,其平均分类精度均有大幅提高,最低为14%,最高可达30%。相比性能较好的CTD,TF-IDF-CD与NB、SVM及DT结合,其平均分类精度均有1%~13%的提高;而在非均衡语料下,与KNN结合时其性能较CTD低2个百分点。TF-IDF-CD与对语料不均衡性较敏感的KNN结合时,其抗数据偏斜能力仍需改善。实验结果表明TF-IDF-CD特征选择方法有效,对TF-IDF的改进具有一定借鉴意义。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号