首页> 外文学位 >Study of feature selection algorithms for text-categorization.
【24h】

Study of feature selection algorithms for text-categorization.

机译:用于文本分类的特征选择算法的研究。

获取原文
获取原文并翻译 | 示例

摘要

This thesis will discuss feature selection algorithms for text-categorization. Feature selection algorithms are very important, as they can make-or-break a categorization engine. The feature selection algorithms that will be discussed in this thesis are Document Frequency, Information Gain, Chi Squared, Mutual Information, NGL (Ng-Goh-Low) coefficient, and GSS (Galavotti-Sebastiani-Simi) coefficient. The general idea of any feature selection algorithm is to determine importance of words using some measure that can keep informative words, and remove non-informative words, which can then help the text-categorization engine categorize a document, D, into some category, C. These feature selection methods are explained, implemented, and are provided results for in this thesis. This thesis also discusses how we gathered and constructed training and testing data, along with the setup and storage techniques we used.
机译:本文将讨论文本分类的特征选择算法。特征选择算法非常重要,因为它们可以使分类引擎成败。本文将讨论的特征选择算法是文档频率,信息增益,卡方,互信息,NGL(Ng-Goh-Low)系数和GSS(Galavotti-Sebastiani-Simi)系数。任何特征选择算法的总体思想是使用某种措施来确定单词的重要性,这种措施可以保留信息性单词,并删除非信息性单词,然后可以帮助文本分类引擎将文档D归类为C本文对这些特征选择方法进行了解释,实现和提供了结果。本文还讨论了我们如何收集和构建训练和测试数据,以及我们使用的设置和存储技术。

著录项

  • 作者

    Dave, Kandarp.;

  • 作者单位

    University of Nevada, Las Vegas.;

  • 授予单位 University of Nevada, Las Vegas.;
  • 学科 Computer Science.
  • 学位 M.S.C.S.
  • 年度 2011
  • 页码 85 p.
  • 总页数 85
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号