互联网新闻分类中特征选择和特征提取方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来，随着互联网技术的快速发展，网络中的文本等信息呈爆炸式增长。对互联网中的新闻文本信息进行分类可以快速提取出用户所需要的信息。因此，如何提高新闻文本分类的高效性和准确性，提供高质量和智能化的新闻文本分类服务具有重要意义。特征选择和特征提取是新闻文本降维的主要手段。常用的特征选择方法默认在均衡数据集上进行特征选择，而在偏斜数据上表现较差。除此之外，已有的文本特征选择方法往往存在一定的缺陷。例如，TF-IDF方法选取的是反映文本集合的特征，而没有考虑这些特征对类别的区分能力;互信息和卡方检验方法往往具有“低频词缺陷”的问题。在文本特征提取过程中，向量空间模型表示的特征向量具有高维性和稀疏性的特点，不能捕捉到特征之间的语义语法关联。针对已有特征选择和特征提取方法中存在的上述问题，以及文本数据普遍存在的类别样本不均衡问题，本文做了以下几个方面的工作:
　　1.针对新闻文本数据集存在的类别样本不均衡问题，本文提出了两种新的基于方差的特征选择方法:1）基于类间概率分布方差的互信息特征选择方法;2)基于文档分布方差的TF-IDF特征选择方法。类间概率分布方差和文档分布方差是每个特征在不同类别中的词频和文档频率方差，该方差仅与类别样本特征有关，与不同类别样本数目无关。因此，本文所提方法能够有效地提取出“小”类别样本的特征，解决类别样本不均衡问题。实验结果表明，相比于已有特征选择方法，本文所提出基于方差的特征选择方法能够筛选出新闻热点词汇，提高新闻文本分类效果。
　　2.本文在对互联网新闻热词的上下文规律进行统计分析的基础上，采用指数衰减模型改进Word2vec词向量训练框架，以提高词向量的精确度。原Word2vec训练框架认为上下文对目标词预测的作用是线性衰减的，而自然语言中上下文对目标词的影响随着距离的增加快速减小，指数衰减模型更接近真实情况。实验结果表明，相比于原Word2vec词向量训练框架，本文采用的基于指数衰减模型改进的Word2vec词向量训练框架可以训练出更加精确的词向量。
　　3.针对经典向量空间模型在特征提取中的问题，本文采用词向量进行特征提取，将文本特征词词向量叠加所组成的向量作为新的特征向量。实验结果表明，在基于方差特征选择方法的基础上，特征词词向量叠加所得文本特征向量在文本分类中表现出良好的性能，能够进一步提高新闻文本分类效果。
　　本文针对文本分类中已有特征选择和特征提取方法存在的问题，以及文本集中类别样本不均衡问题，以互联网新闻分类为应用背景，提出的基于方差的特征选择方法可以选出“小类别中的特征，提高非均衡新闻集的分类效果;基于指数衰减模型改进的Word2vec词向量训练框架，训练出更加精确的词向量;词向量用于特征提取时，能够在基于方差的特征选择基础上进一步提高新闻分类效果。

著录项

作者
王甜甜;
展开▼
作者单位

中国科学技术大学;

展开▼
授予单位中国科学技术大学;
学科控制科学与工程
授予学位硕士
导师姓名康宇,曹洋;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
互联网; 新闻文本; 信息分类; 特征选择; 特征提取;

相似文献

中文文献
外文文献
专利

1. 不平衡情感分类中的特征选择方法研究 [J] . 王志昊 ,王中卿 ,李寿山 . 中文信息学报 . 2013,第004期
2. 文本分类中特征选择方法研究及分析 [J] . 洪亮 . 科技广场 . 2009,第007期
3. 文本分类中改进的互信息特征选择方法研究 [J] . 罗勇 . 福建电脑 . 2009,第004期
4. 文本分类中特征选择方法研究 [J] . 王维娜 ,康耀红 ,伍小芹 . 信息技术 . 2008,第012期
5. 中文文本分类中基于词性的特征提取方法研究 [J] . 胡燕 ,吴虎子 ,钟珞 . 武汉理工大学学报 . 2007,第4期
6. 融合PLS监督特征提取和虚假最近邻点的数据分类特征选择 [C] . 颜克胜 ,李太福 ,魏正元 . 第23届过程控制会议 . 2012
7. 文本分类中特征选择方法研究——维吾尔语系 [A] . 韩军兵 . 2017

互联网新闻分类中特征选择和特征提取方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅