首页> 中文学位 >互联网新闻分类中特征选择和特征提取方法研究
【6h】

互联网新闻分类中特征选择和特征提取方法研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 选题背景和意义

1.2 研究历史和国内外研究现状

1.3 新闻文本分类中的关键问题

1.4 本文研究内容

1.5 本文组织结构

第2章 文本分类中的关键技术

2.1 文本预处理

2.1.1 文本分词

2.1.2 去停用词

2.2 特征选择

2.3 特征提取

2.3.1 布尔模型

2.3.2 向量空间模型

2.4 分类算法

2.5 评价指标

2.6 词向量

2.6.1 词向量由来

2.6.2 词向量训练模型

2.6.3 Word2vec词向量训练工具

2.7 本章小结

第3章 基于方差的特征选择方法

3.1 常用文本特征选择方法存在的问题

3.2 基于方差的特征选择思想

3.2.1 类间概率分布方差

3.2.2 文档分布方差

3.2.3 基于文档分布方差的TF-IDF特征选择方法

3.2.4 基于类间概率分布方差的互信息特征选择方法

3.3 方法验证和结果分析

3.3.1 VAR-TF-IDF分类效果

3.3.2 VAR-MI分类效果

3.4 本章小结

第4章 词向量特征提取

4.1 基于指数衰减模型的CBOW+HS词向量训练框架

4.1.1 上下文衰减规律

4.1.2 基于指数衰减模型的词向量训练框架

4.1.3 实验结果及其分析

4.2 不同特征向量表示方法对新闻文本分类效果的影响

4.2.1 特征词词向量首尾相接作为新闻文本特征向量

4.2.2 特征词词向量叠加作为新闻文本的特征向量

4.2.3 VSM中特征向量和词向量叠加所得向量作为新的特征向量

4.3 本章小结

第5章 总结与展望

5.1 本文工作总结

5.2 未来工作展望

参考文献

致谢

在读期间发表的学术论文与取得的其他研究成果

展开▼

摘要

近年来,随着互联网技术的快速发展,网络中的文本等信息呈爆炸式增长。对互联网中的新闻文本信息进行分类可以快速提取出用户所需要的信息。因此,如何提高新闻文本分类的高效性和准确性,提供高质量和智能化的新闻文本分类服务具有重要意义。特征选择和特征提取是新闻文本降维的主要手段。常用的特征选择方法默认在均衡数据集上进行特征选择,而在偏斜数据上表现较差。除此之外,已有的文本特征选择方法往往存在一定的缺陷。例如,TF-IDF方法选取的是反映文本集合的特征,而没有考虑这些特征对类别的区分能力;互信息和卡方检验方法往往具有“低频词缺陷”的问题。在文本特征提取过程中,向量空间模型表示的特征向量具有高维性和稀疏性的特点,不能捕捉到特征之间的语义语法关联。针对已有特征选择和特征提取方法中存在的上述问题,以及文本数据普遍存在的类别样本不均衡问题,本文做了以下几个方面的工作:
  1.针对新闻文本数据集存在的类别样本不均衡问题,本文提出了两种新的基于方差的特征选择方法:1)基于类间概率分布方差的互信息特征选择方法;2)基于文档分布方差的TF-IDF特征选择方法。类间概率分布方差和文档分布方差是每个特征在不同类别中的词频和文档频率方差,该方差仅与类别样本特征有关,与不同类别样本数目无关。因此,本文所提方法能够有效地提取出“小”类别样本的特征,解决类别样本不均衡问题。实验结果表明,相比于已有特征选择方法,本文所提出基于方差的特征选择方法能够筛选出新闻热点词汇,提高新闻文本分类效果。
  2.本文在对互联网新闻热词的上下文规律进行统计分析的基础上,采用指数衰减模型改进Word2vec词向量训练框架,以提高词向量的精确度。原Word2vec训练框架认为上下文对目标词预测的作用是线性衰减的,而自然语言中上下文对目标词的影响随着距离的增加快速减小,指数衰减模型更接近真实情况。实验结果表明,相比于原Word2vec词向量训练框架,本文采用的基于指数衰减模型改进的Word2vec词向量训练框架可以训练出更加精确的词向量。
  3.针对经典向量空间模型在特征提取中的问题,本文采用词向量进行特征提取,将文本特征词词向量叠加所组成的向量作为新的特征向量。实验结果表明,在基于方差特征选择方法的基础上,特征词词向量叠加所得文本特征向量在文本分类中表现出良好的性能,能够进一步提高新闻文本分类效果。
  本文针对文本分类中已有特征选择和特征提取方法存在的问题,以及文本集中类别样本不均衡问题,以互联网新闻分类为应用背景,提出的基于方差的特征选择方法可以选出“小类别中的特征,提高非均衡新闻集的分类效果;基于指数衰减模型改进的Word2vec词向量训练框架,训练出更加精确的词向量;词向量用于特征提取时,能够在基于方差的特征选择基础上进一步提高新闻分类效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号