声明
摘要
第1章 绪论
1.1 选题背景和意义
1.2 研究历史和国内外研究现状
1.3 新闻文本分类中的关键问题
1.4 本文研究内容
1.5 本文组织结构
第2章 文本分类中的关键技术
2.1 文本预处理
2.1.1 文本分词
2.1.2 去停用词
2.2 特征选择
2.3 特征提取
2.3.1 布尔模型
2.3.2 向量空间模型
2.4 分类算法
2.5 评价指标
2.6 词向量
2.6.1 词向量由来
2.6.2 词向量训练模型
2.6.3 Word2vec词向量训练工具
2.7 本章小结
第3章 基于方差的特征选择方法
3.1 常用文本特征选择方法存在的问题
3.2 基于方差的特征选择思想
3.2.1 类间概率分布方差
3.2.2 文档分布方差
3.2.3 基于文档分布方差的TF-IDF特征选择方法
3.2.4 基于类间概率分布方差的互信息特征选择方法
3.3 方法验证和结果分析
3.3.1 VAR-TF-IDF分类效果
3.3.2 VAR-MI分类效果
3.4 本章小结
第4章 词向量特征提取
4.1 基于指数衰减模型的CBOW+HS词向量训练框架
4.1.1 上下文衰减规律
4.1.2 基于指数衰减模型的词向量训练框架
4.1.3 实验结果及其分析
4.2 不同特征向量表示方法对新闻文本分类效果的影响
4.2.1 特征词词向量首尾相接作为新闻文本特征向量
4.2.2 特征词词向量叠加作为新闻文本的特征向量
4.2.3 VSM中特征向量和词向量叠加所得向量作为新的特征向量
4.3 本章小结
第5章 总结与展望
5.1 本文工作总结
5.2 未来工作展望
参考文献
致谢
在读期间发表的学术论文与取得的其他研究成果