基于TF-IDF的文本分类系统中权重计算和特征选择方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

词频-逆文本频率(Term Frequency-Inverse Document Frequency，TF-IDF)是一种经典的基于VSM模型的权重计算方法，其算法相对简单，非常便于计算，应用较多。但该方法比较粗糙，容易导致特征空间高维稀疏。基于传统的TF-IDF特征选择思想，本文引入类别描述因子，基于类内、类间信息修正TF-IDF权重因子，提出一种包含类别信息的TF-IDF-CD(Category Description，CD)模型。该模型的TF部分含有特征项的类内频数信息，IDF部分含有特征项的类间频数信息，突出类别贡献大的特征的权重，抑制次要特征权重。最后通过文本分类实验，将其在偏斜语料和均衡语料下分别与NB、KNN等分类器结合进行文本分类实验，比较其与TF-IDF、CTD等几种方法的分类精确度。结果显示，TF-IDF-CD方法在特征项较少时已有很好分类效果。相比TF-IDF，在不同语料以及不同分类器下，其平均分类精度均有大幅提高，最低为14％，最高可达30％。相比性能较好的CTD，TF-IDF-CD与NB、SVM及DT结合，其平均分类精度均有1％～13％的提高;而在非均衡语料下，与KNN结合时其性能较CTD低2个百分点。TF-IDF-CD与对语料不均衡性较敏感的KNN结合时，其抗数据偏斜能力仍需改善。实验结果表明TF-IDF-CD特征选择方法有效，对TF-IDF的改进具有一定借鉴意义。

著录项

作者
徐冬冬;
展开▼
作者单位

北京信息科技大学;

展开▼
授予单位北京信息科技大学;
学科通信与信息系统
授予学位硕士
导师姓名吴韶波;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
文本分类系统; 权重计算法; 特征选择方法; 词频-逆文本频率;

相似文献

中文文献
外文文献
专利

1. 文本分类中TF-IDF权重计算方法改进 [J] . 隗中杰 . 软件导刊 . 2018,第012期
2. 文本分类中TF-IDF权重计算方法改进 [J] . 隗中杰1 . 软件导刊 . 2018,第012期
3. 文本分类中基于熵的词权重计算方法研究 [J] . 陈科文 ,张祖平 ,龙军 . 计算机科学与探索 . 2016,第009期
4. 基于改进的TF-IDF权重的短文本分类算法 [J] . 杨彬 ,韩庆文 ,雷敏 . 重庆理工大学学报（自然科学版） . 2016,第012期
5. 基于改进的TF-IDF权重的短文本分类算法 [J] . 杨彬1 ,韩庆文1 ,雷敏2 . 重庆理工大学学报 . 2016,第012期
6. 自动答疑系统文本特征选择及权重计算方案设计 [C] . 马楠 ,王晓军 ,李建伟 . 第六届教育技术国际论坛 . 2007
7. 中文文本分类中卡方特征提取和对TF-IDF权重改进 [A] . 石俊涛 . 2017

基于TF-IDF的文本分类系统中权重计算和特征选择方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅