首页> 中文学位 >一种基于统计流形学习的文本分类算法
【6h】

一种基于统计流形学习的文本分类算法

代理获取

目录

声明

摘要

表格索引

插图索引

算法索引

1.1 文本分类问题简述

1.2 研究背景

1.3 研究内容与方法

1.4 本文结构

第二章 文本分类算法

2.1 基于统计的文本分类算法

2.1.1 TF-IDF

2.1.2 BM25 Okapi

2.1.3 朴素贝叶斯进行文本分类

2.2 基于语义相似度的文本分类算法

2.2.1 概率隐语义分析PLSA

2.2.2 从PLSA到LDA

2.3 基于深度学习的文本分类算法

2.3.1 卷积神经网络

2.3.2 循环神经网络

2.3.3 循环卷积神经网络

2.4 本章小结

第三章 基于主题多样性分布的文本概率模型

3.1 词向量简介

3.2 主题多样性分布

3.3 不同主题权值系数下的的文本概率模型

3.4 本章小结

第四章 基于统计流形学习的概率模型度量

4.1 散度距离

4.1.1 K-L散度

4.1.2 J-S散度

4.1.3 f散度

4.1.4 散度距离的讨论

4.2 沃瑟斯坦度量

4.2.1 沃瑟斯坦度量的讨论

4.3 Lp空间距离

4.3.1 文本概率模型上的L1距离和L2距离

4.4 统计流形学习框架下的文本概率模型度量

4.4.1 统计流形学习

4.4.2 文本概率模型上的统计流形度量方法

4.5 本章小结

第五章 实验分析

5.1 文本分类实验

5.1.1 分类实验数据集简介

5.1.2 词向量训练使用语料库简介

5.1.3 文本分类实验所用对比算法

5.1.4 word2vec训练参数分析与设置

5.1.5 TCSM主题数量K分析与设置

5.1.6 文本分类实验结果与分析

5.2 主题分布多样性观察实验

5.2.1 主题分布多样性观察实验结果与分析

5.3 文本摘要抽取实验

5.3.1 文本摘要抽取实验所用数据集

5.3.2 文本摘要抽取实验所用对比算法

5.3.3 文本摘要抽取实验结果与分析

5.4 本章小结

6.1 总结

6.2 后续工作

参考文献

致谢

在读期间发表的学术论文与取得的研究成果

展开▼

摘要

文本是一种常见的数据形式,人们每天都会使用文本这一信息载体与他人进行交流,互联网中每时每刻都会产生海量的文本数据。文本分类在信息检索、数据挖掘、情感分析等任务上都发挥着巨大的作用。根据提取特征方式的不同,文本分类算法可以分为以下三大类:基于统计的文本分类算法,基于语义相似度的文本分类算法以及基于深度学习的文本分类算法。常见的基于统计的文本分类算法有词频-逆向文件频率模型(TF-IDF),朴素贝叶斯等等。这些方法把词作为特征项,词出现的次数作为权值,然后把文本表示为一个特征向量,最后使用分类器进行文本分类。这些方法假设相似的文本中有很多相同的词,但是这忽略了不同词之间的语义相似性。基于语义相似度的文本分类方法通常根据文本的主题信启、对文本的相似度进行度量,如主题模型等等,但是这些方法不能够清晰地捕捉到词和文本的主题多样性。近年来,深度学习方法吸引了许多研究者的注意,但是这些方法,比如卷积神经网络或者循环神经网络等等,也有着一些不足。比如梯度消失问题以及大规模参数训练带来的时间消耗。本文提出了一种基于统计流形学习的文本分类算法,它提供了一个基于潜在主题分布的文本概率模型表示。该模型假设同一个主题下的词服从高斯分布,然后文本被表示为一个混合高斯模型,最后利用统计流形学习的方法可以对文本之间的距离进行度量。
  本文的主要工作包括:
  (1)从文本的生成过程出发,提出了一种文本表示的概率模型。每个主题被表示为一个高斯分布,文本被表示为一个高斯混合模型。这种概率模型可以对文本和词的主题多样性进行较好的描述。
  (2)通过使用概率模型对文本上的主题分布进行描述,文本建模的计算时间复杂度降低为O(n),n是文本中单词数量。主题模型中训练速度和语料依赖性的问题得到了改良。
  (3)通过统计流形学习方法,对文本概率模型的距离进行了度量,提供了一种度量概率模型的新思路。
  (4)在实验部分,通过三组不同任务的实验,验证了本文所提算法的有效性以及高斯混合模型描述混合主题下词向量分布的能力。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号