首页> 中文学位 >基于改进词语权重的文本分类方法研究
【6h】

基于改进词语权重的文本分类方法研究

代理获取

目录

文摘

英文文摘

第一章 引言

1.1 研究背景及意义

1.2 国内外研究历史及现状

1.3 本文的主要工作

1.4 论文结构

第二章 文本分类的关键技术

2.1 文本分类过程

2.2 文本预处理

2.3 常用文本表示方法

2.3.1 布尔模型(Boolean Model)

2.3.2 概率模型(Probabilistic Model)

2.3.3 向量空间模型(Vector Space Model)

2.4 常用特征选择方法

2.4.1 文档频率(DF)

2.4.2 信息增益(IG)

2.4.3 互信息(MI)

2.4.4 X2统计量(CHI)

2.5 常用分类方法

2.5.1 朴素贝叶斯(NB)

2.5.2 K近邻(KNN)

2.5.3 支持向量机(SVM)

2.5.4 人工神经网络(ANN)

2.5.5 决策树(DT)

2.6 性能评价指标

2.7 小结

第三章 词语权重计算方法的改进

3.1 常用词语权重计算方法

3.1.1 布尔权重

3.1.2 词频权重(TF)

3.1.3 IDF权重

3.1.4 TF-IDF权重

3.2 传统方法的不足

3.3 改进的方法

3.4 分类器的设计

3.5 小结

第四章 实验结果及分析

4.1 实验介绍

4.1.1 数据集

4.1.2 参数设定

4.2 实验结果

4.3 分析与讨论

4.4 小结

第五章 总结和展望

5.1 总结

5.2 进一步工作

参考文献

致谢

在学期间公开发表论文情况

展开▼

摘要

信息科技飞速发展的今天,互联网技术也得到了迅猛发展,电子文档的数量呈现了指数级增长,海量信息为用户提供方便的同时,也给用户获取有用信息带来了不便。如何有效地帮助用户查找、组织和管理这些信息,并且快速、准确地找到用户所需的有用信息已成为当今研究的重要课题。正是在这样的背景之下,基于机器学习的文本分类方法逐渐成为一个日益重要的研究领域。
   文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。文本分类系统能够在给定的分类模型下,根据文本的内容对文本进行分类,从而更好地帮助人们组织和挖掘文本信息,因此成为信息处理领域最重要的研究方向之一,具有较大的发展潜力。文本分类具有很大的实用价值,它在信息检索和信息过滤等方面有着广泛的应用,极大地提高了信息的使用效率。
   本文研究的重点是通过改进传统的词语权重计算方法来提高文本分类精度。在对传统的基于词语权重的文本分类方法作了深入研究的基础上,改进传统的词语加权方法一tf-idf方法,得到一种新的词语加权方法。传统的词语加权方法只考虑tf(词频)、idf(反文档频率)两方面,并且简单地认为低频词比高频词重要,所以,往往把稀有词赋予较高的权值,但在实际当中,稀有词几乎不能作为文本的特征来表示文本。为了弥补这个缺点,本文提出了新的计算词语权重的方法,来提高分类的效率和精度。并通过实验验证了该方法的可行性和高效性。
   实验表明,本文提出的改进词语权重的计算方法,在数据集Reuters-21578上使用KNN分类器分类的效果,要优于传统词语权重计算方法使用KNN分类器分类的效果。实验结果证明,从评估函数精确率、召回率、F1函数三方面来看,改进的词语权重计算方法的分类效果要好于传统的词语权重计算方法的分类效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号