声明
摘要
表格索引
插图索引
算法索引
1.1 文本分类问题简述
1.2 研究背景
1.3 研究内容与方法
1.4 本文结构
第二章 文本分类算法
2.1 基于统计的文本分类算法
2.1.1 TF-IDF
2.1.2 BM25 Okapi
2.1.3 朴素贝叶斯进行文本分类
2.2 基于语义相似度的文本分类算法
2.2.1 概率隐语义分析PLSA
2.2.2 从PLSA到LDA
2.3 基于深度学习的文本分类算法
2.3.1 卷积神经网络
2.3.2 循环神经网络
2.3.3 循环卷积神经网络
2.4 本章小结
第三章 基于主题多样性分布的文本概率模型
3.1 词向量简介
3.2 主题多样性分布
3.3 不同主题权值系数下的的文本概率模型
3.4 本章小结
第四章 基于统计流形学习的概率模型度量
4.1 散度距离
4.1.1 K-L散度
4.1.2 J-S散度
4.1.3 f散度
4.1.4 散度距离的讨论
4.2 沃瑟斯坦度量
4.2.1 沃瑟斯坦度量的讨论
4.3 Lp空间距离
4.3.1 文本概率模型上的L1距离和L2距离
4.4 统计流形学习框架下的文本概率模型度量
4.4.1 统计流形学习
4.4.2 文本概率模型上的统计流形度量方法
4.5 本章小结
第五章 实验分析
5.1 文本分类实验
5.1.1 分类实验数据集简介
5.1.2 词向量训练使用语料库简介
5.1.3 文本分类实验所用对比算法
5.1.4 word2vec训练参数分析与设置
5.1.5 TCSM主题数量K分析与设置
5.1.6 文本分类实验结果与分析
5.2 主题分布多样性观察实验
5.2.1 主题分布多样性观察实验结果与分析
5.3 文本摘要抽取实验
5.3.1 文本摘要抽取实验所用数据集
5.3.2 文本摘要抽取实验所用对比算法
5.3.3 文本摘要抽取实验结果与分析
5.4 本章小结
6.1 总结
6.2 后续工作
参考文献
致谢
在读期间发表的学术论文与取得的研究成果