基于VSM模型和特征选择算法的中文文本自动分类研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

文本分类(TextCategorization)是指根据文本的内容,计算机按照某种自动分类算法,把文本判分为预先定义好的类别。文本分类在信息检索,信息过滤,基于个性化的信息服务等方面有着重要用途。随着数字化文档信息总量的快速增长,大规模文本处理已经成为一个挑战。实现文本自动分类的基本困难之一是特征项空间的维数过高,数量过大的特征项一方面导致分类算法的代价过高,另一方面导致无法准确地提取文档的类别信息,造成分类效果不佳。因此,需要在不牺牲分类质量的前提下尽可能地降低特征项空间的维数。
　　本文研究如何利用向量空间模型(VSM)和特征选择技术来有效对文本特征向量空间进行降维,减少维数过高对分类结果召回率和准确率的影响。本文针对特征选择算法中tf-idf无法反映词汇的重要程度和特征词的分布情况和互信息没有考虑特征项出现在文本中的次数提出改进方法,同时还引入测量学中的区分度方法来对文本进行特征选择,然后通过SVM分类算法进行分析、统计、学习,最后得到一个自动的文本分类系统。
　　本文是在向量空问模型(VSM)的基础上对中文文本自动分类进行研究,研究的主要内容和创新点如下:
　　 1.本文针对向量空间模型(VSM)中的tf-idf存在的不足提出了一种改进方法,传统的tf-idf方法无法反映词汇的重要程度和特征词的分布情况,改进的tf-idf加入了类别中包含词汇的文本数及词汇出现在某一类文本中的次数,改进后的tf-idf可以很明了地区分出特征项的重要程度;
　　 2.为了降维特征向量空间,本文针对特征选择方法中互信息方法提出了一种改进方法,改进后的互信息有效的解决了受特征词条的边缘分布的影响导致稀有词的值偏大这个问题,从一定程度上解决了“过度拟合”问题;
　　 3.在降低特征向量空间维数方法上,本文引入了测量学上的区分度方法,一种特征选择区分度方法-比例区分度(CPD)算法,CPD算法可以反映了词出现在某个类和其他类中的文本数,通过结合改进的tf-idf权重公式可以选取出更具有代表性的特征项,有利于文本分类;
　　 4.本文设计了一个中文文本分类系统,该系统由预处理、特征选择、文本表示、文本分类及评价五个部分组成。预处理是对训练集文本进行分词,过滤停用词、数字等;特征选择部分采用了文档频率、互信息、卡方统计和改进的互信息、比例区分度几种方法进行比较,并结合改进的tf-idf方法计算特征项在文本中的权重;分类部分则是利用SVM分类器进行分类。
　　 5.本文所有的实验都是以中文文本分类语料库-TanCorpv1.0为实验数据,利用汉语分词系统ICTCLAS对文本进行分词,性能评估方法使用的是文本分类常用的微平均和宏平均。

著录项

作者
朱坤红;
展开▼
作者单位

江西师范大学;

展开▼
授予单位江西师范大学;
学科管理科学与工程
授予学位硕士
导师姓名汪浩;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
特征选择算法; 向量空间模型; 支持向量机; 文本分类;

相似文献

中文文献
外文文献
专利

1. 基于VSM的中文网页自动分类模型 [J] . 陈鑫 . 长治学院学报 . 2004,第002期
2. 一个基于向量空间模型的中文文本自动分类系统 [J] . 朱华宇 ,孙正兴 ,张福炎 . 计算机工程 . 2001,第002期
3. 中文文本自动分类中的特征选择改进与研究 [J] . 张振浩 ,周奇年 ,杨继慧 . 工业控制计算机 . 2012,第011期
4. 基于CFS-GA特征选择算法的中文网页自动分类 [J] . 喻春萍 ,黄晓霞 . 上海海事大学学报 . 2012,第001期
5. 一种基于传统VSM和词共现概念的中文文本聚类的研究 [J] . 耿焕同 ,陈少军 . 安徽师范大学学报（自然科学版） . 2005,第001期
6. 中文文本自动分类中特征向量选择的一种改进算法 [C] . 王若翔 ,刘亚军 . 全国第五次程序设计语言发展与教学学术会议、第三届全国Web信息系统及其应用学术会议暨全国首届语义Web与本体论学术研讨会 . 2006
7. 基于互信息特征选择算法的文本自动分类研究 [A] . 刘佳 . 2015

基于VSM模型和特征选择算法的中文文本自动分类研究

摘要

著录项

相似文献

相关主题

期刊订阅