基于改进词语权重的文本分类方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

信息科技飞速发展的今天,互联网技术也得到了迅猛发展,电子文档的数量呈现了指数级增长,海量信息为用户提供方便的同时,也给用户获取有用信息带来了不便。如何有效地帮助用户查找、组织和管理这些信息,并且快速、准确地找到用户所需的有用信息已成为当今研究的重要课题。正是在这样的背景之下,基于机器学习的文本分类方法逐渐成为一个日益重要的研究领域。
　　文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。文本分类系统能够在给定的分类模型下,根据文本的内容对文本进行分类,从而更好地帮助人们组织和挖掘文本信息,因此成为信息处理领域最重要的研究方向之一,具有较大的发展潜力。文本分类具有很大的实用价值,它在信息检索和信息过滤等方面有着广泛的应用,极大地提高了信息的使用效率。
　　本文研究的重点是通过改进传统的词语权重计算方法来提高文本分类精度。在对传统的基于词语权重的文本分类方法作了深入研究的基础上,改进传统的词语加权方法一tf-idf方法,得到一种新的词语加权方法。传统的词语加权方法只考虑tf(词频)、idf(反文档频率)两方面,并且简单地认为低频词比高频词重要,所以,往往把稀有词赋予较高的权值,但在实际当中,稀有词几乎不能作为文本的特征来表示文本。为了弥补这个缺点,本文提出了新的计算词语权重的方法,来提高分类的效率和精度。并通过实验验证了该方法的可行性和高效性。
　　实验表明,本文提出的改进词语权重的计算方法,在数据集Reuters-21578上使用KNN分类器分类的效果,要优于传统词语权重计算方法使用KNN分类器分类的效果。实验结果证明,从评估函数精确率、召回率、F1函数三方面来看，改进的词语权重计算方法的分类效果要好于传统的词语权重计算方法的分类效果。

著录项

作者
李萍;
展开▼
作者单位

东北师范大学;

展开▼
授予单位东北师范大学;
学科计算机应用技术
授予学位硕士
导师姓名姜华;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
词语权重; 文本分类系统; 信息检索; 计算方法; 加权方法; 分类效果; 分类方法; 实验验证; 分类器; 互联网技术; 反文档频率; 组织; 研究领域; 研究方向; 信息科技; 信息过滤; 信息处理; 效率; 文本信息; 数据挖掘;

相似文献

中文文献
外文文献
专利

1. 文本分类中基于改进的词语权重算法的研究 [J] . 侯艳钗 ,沈西挺 . 微计算机信息 . 2011,第006期
2. 文本分类中词语权重计算的改进 [J] . 张青 ,熊前兴 . 电脑知识与技术 . 2011,第001期
3. 文本分类算法中词语权重计算方法的改进 [J] . 赵小华 ,马建芬 . 电脑知识与技术 . 2009,第036期
4. 文本分类中词语权重计算方法的改进与应用 [J] . 熊忠阳 ,黎刚 ,陈小莉 . 计算机工程与应用 . 2008,第005期
5. 文本分类中基于熵的词权重计算方法研究 [J] . 陈科文 ,张祖平 ,龙军 . 计算机科学与探索 . 2016,第009期
6. 基于特征项权重改进的关联文本分类 [C] . . 第二十五届中国数据库学术会议(NDBC2008) . 2008
7. 文本分类中词语权重计算方法的改进及应用 [A] . 黎刚 . 2007

基于改进词语权重的文本分类方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅