一种基于统计流形学习的文本分类算法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

文本是一种常见的数据形式，人们每天都会使用文本这一信息载体与他人进行交流，互联网中每时每刻都会产生海量的文本数据。文本分类在信息检索、数据挖掘、情感分析等任务上都发挥着巨大的作用。根据提取特征方式的不同，文本分类算法可以分为以下三大类:基于统计的文本分类算法，基于语义相似度的文本分类算法以及基于深度学习的文本分类算法。常见的基于统计的文本分类算法有词频-逆向文件频率模型(TF-IDF)，朴素贝叶斯等等。这些方法把词作为特征项，词出现的次数作为权值，然后把文本表示为一个特征向量，最后使用分类器进行文本分类。这些方法假设相似的文本中有很多相同的词，但是这忽略了不同词之间的语义相似性。基于语义相似度的文本分类方法通常根据文本的主题信启、对文本的相似度进行度量，如主题模型等等，但是这些方法不能够清晰地捕捉到词和文本的主题多样性。近年来，深度学习方法吸引了许多研究者的注意，但是这些方法，比如卷积神经网络或者循环神经网络等等，也有着一些不足。比如梯度消失问题以及大规模参数训练带来的时间消耗。本文提出了一种基于统计流形学习的文本分类算法，它提供了一个基于潜在主题分布的文本概率模型表示。该模型假设同一个主题下的词服从高斯分布，然后文本被表示为一个混合高斯模型，最后利用统计流形学习的方法可以对文本之间的距离进行度量。
　　本文的主要工作包括:
　　(1)从文本的生成过程出发，提出了一种文本表示的概率模型。每个主题被表示为一个高斯分布，文本被表示为一个高斯混合模型。这种概率模型可以对文本和词的主题多样性进行较好的描述。
　　(2)通过使用概率模型对文本上的主题分布进行描述，文本建模的计算时间复杂度降低为O(n)，n是文本中单词数量。主题模型中训练速度和语料依赖性的问题得到了改良。
　　(3)通过统计流形学习方法，对文本概率模型的距离进行了度量，提供了一种度量概率模型的新思路。
　　(4)在实验部分，通过三组不同任务的实验，验证了本文所提算法的有效性以及高斯混合模型描述混合主题下词向量分布的能力。

著录项

作者
李正宇;
展开▼
作者单位

中国科学技术大学;

展开▼
授予单位中国科学技术大学;
学科计算机软件与理论
授予学位硕士
导师姓名陈欢欢;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;算法理论;
关键词
文本分类; 流形学习; 混合模型; 高斯分布;

相似文献

中文文献
外文文献
专利

1. 基于流形正则化极限学习机的文本分类算法研究 [J] . 庞皓明 ,冀俊忠 ,刘金铎 . 计算机工程 . 2019,第006期
2. 基于非线性流形学习和支持向量机的文本分类算法 [J] . 任剑锋 ,梁雪 ,李淑红 . 计算机科学 . 2012,第001期
3. 一种基于增量学习型矢量量化的有效文本分类算法 [J] . 王修君 ,沈鸿 . 计算机学报 . 2007,第008期
4. iRIPPER——一种改进的基于规则学习的文本分类算法 [J] . 袁晓航 ,杜小勇 . 山东大学学报：理学版 . 2007,第11期
5. 一种基于流形边缘最大化的图像集分类算法 [J] . 武丽芬 ,赵昌垣 ,严学勇 . 计算机工程 . 2018,第007期
6. 基于流形学习的半监督文本情感分类算法 [C] . 何慧 ,陈博 ,郭军 . 第五届全国信息检索学术会议CCIR2009 . 2009
7. 基于流形学习的中文Web文本分类算法研究 [A] . 李金钊 . 2010

一种基于统计流形学习的文本分类算法

目录

摘要

著录项

相似文献

相关主题

期刊订阅