中文文本自动分类中特征向量选择的一种改进算法

摘要

随着互联网的迅速发展,对海量的信息进行处理再加工显得尤为重要.文本自动分类是信息检索方面一个基础性的研究工作,即,研究在特定的分类体系下,如何根据文本的内容自动判别文本的类别,以减少信息检索的范围.本文介绍了文本分类的一些关键技术,包括文本表示,特征向量的选择,分类算法等,并且对常用的特征向量选择算法进行了比较,分析其中存在的问题并提出一种特征向量选择的改进算法,即找出一类有较强类别区分意义的特征词,构成特征向量.利用改进后的算法对语料库进行训练和测试,实验结果表明,在使用各种分类算法对中文文本进行分类的过程中,改进后的特征向量选择算法对分类准确率有不同程度的提高.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号