基于深度学习的上下文关系在文本表示与分类上的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网信息技术的广泛应用，电子文本的数量呈现爆炸式增长。如何有效地处理这些文本，获取其中有用的信息成为当前学界和工业界关注的焦点。近年来迅猛发展的深度学习技术，由于其在文本上强大的表示学习能力，被应用于文本处理并取得大量成果。传统的文本表示方法，特别是基于“热点”表示的词袋模型，只学习了文本中单词数量的统计信息，却忽视了文本中上下文之间的语义关联信息。现有的深度学习模型虽然在文本上下文关系上做了探索，但是相关模型基本集中在“长距离”词间关系的研究上，缺乏单词在文本表示中的权重影响力研究。本文通过研究文本中单词与单词之间的语义关系以及这种关系对文本表示的影响，来实现增强文本表示，从而提升文本分类效果的目的。我们首先利用深度学习技术，从低维单词表示（词嵌入）技术入手，探索低维环境下词嵌入的表示方法。然后，我们研究单词在文本中的两个特性“文本中单词的权重表示”和“文本中单词之间的关系”以及其对文本表示的影响。我们在词嵌入研究的基础上，完成了随时间发生语义变化的单词探测任务。在基于上下文关系的文本表示研究的基础上，提出了记忆力增强模型（Memory-enhanced Latent Semantic Model，MLSM），构建了双向深层特征挖掘模型（Deeply Hierarchical Bi-directional MLSM,DHBM），并把这两个模型分别用于文本情感分类任务中。本文的主要研究成果如下： 1.作为文本中最小的语义单元，单词是文本表示的基础。基于深度学习的SGNS（Skip-gram with Negative Sampling）模型学习单词的（低维）词嵌入表示，把单词邻近的局部上下文信息纳入词嵌入表示中。在本文中，我们把单词的词性信息也输入到SGNS模型中，提出一种广度学习模型来增强词嵌入表示。我们还把学习到的词嵌入应用到随时间发生语义变化的单词探测任务中，提出一种标记词向量学习模型来探测随时间发生语义变化的单词。和其它现有模型在谷歌大数据（1900年到2000年跨度100年的书刊、报纸等英文文本，数据量为105GB，约2亿5仟万行词组）上的对比实验表明：我们提出的模型在探测质量和时间复杂度上都远远领先。我们还完成了一个在线查询系统：把我们在谷歌大数据中探测到的语义变化单词纳入查询系统中提供公开查询。该系统可以在线展示被查询单词在不同时期的语义相近单词（邻居单词），通过区分不同时期的邻居单词来推测被查询单词在这些不同时期之间的语义变化方向。 2.人们阅读一段文本的时候，会对其中少量关键单词有特别深刻的印象，甚至会忽略其它一些不重要的单词。这有助于人们把注意力放到文本所强调的局部上下文信息上，从而进一步理解其蕴含的情感倾向。这一阅读机制体现了这些关键单词对文本所隐含语义的重要性。我们对文本情感分类任务中的情感极性单词进行了研究，发现这些情感极性单词对一段文本所体现的情感走向产生很大的影响，其在文本表示上的影响远远强于其它单词。在本文中，我们利用SentiWordNet3.0中的情感极性单词来构建一个情感极性单词词典。每个情感极性单词根据其蕴含的情感程度强弱拥有一个预先定义好的情感极性值。该情感极性单词词典几乎囊括了情感分类任务中的所有情感极性单词。同时，结合深度学习中的长短记忆模型（Long Short-Term Memory,LSTM，循环神经网络的一个变种），我们设计并提出了一种记忆力增强模型（Memory-enhanced Latent Semantic Model，MLSM）。该模型强化了情感极性单词在文本表示上的比重。在IMDB和SemEval2016task4两个数据集上的实验结果表明，我们的模型有效提升了LSTM模型在情感分类任务上的准确度。我们把这一创新点应用于深度学习中的门控循环模型（Gated Recurrent Unit,GRU），同样取得了显著的效果。 3.人们阅读的时候总是遵循单向阅读的习惯，文本中前面的内容为后面的文字提供支撑素材。然而，后面的文字为前面的内容提供的解读，反过来可以帮助我们进一步理解文本。也就是说文本中单词之间的语义关系不止是前向的，还可以反向的。在本文中，我们构建了一个双向深层神经网络（Deeply Hierarchical Bi-directional Neural network,DHBN），该网络利用双向神经网络[1]从前后两个方向同时“阅读”文本以提取单词间双向关联关系，同时，该网络还通过多层双向神经网络进行层叠来挖掘文本的深度特征。更进一步，我们把DHBN和MLSM相结合提出了双向深层特征挖掘模型（Deeply HierarchicalBi-directional MLSM,DHBM）。除此以外，我们还利用残差网络来改进DHBM模型，解决了多级层叠之后的网络模型在训练过程中存在的误差消失的问题。分别在IMDB和SemEval2016task4两个数据集的情感分类任务中，DHBM模型的效果远远好于MLSM，并且优于其它基于CNN的分类模型。

著录项

作者
胡飞;
展开▼
作者单位

西南大学;

展开▼
授予单位西南大学;
学科智能计算与复杂系统
授予学位博士
导师姓名李莉;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;摄影测量学与测绘遥感;
关键词
深度学习; 上下文关系; 文本表示;

相似文献

中文文献
外文文献
专利

1. 深度学习在文本表示及分类中的应用研究 [J] . 崔莹 . 电脑知识与技术 . 2019,第016期
2. 基于词语上下文关系的文本自动分类方法研究 [J] . 郭少友 . 现代图书情报技术 . 2008,第005期
3. 基于句子的文本表示及中文文本分类研究 [J] . 何维 ,王宇 . 情报学报 . 2009,第006期
4. 基于N元汉字串模型的文本表示和实时分类的研究与实现 [J] . 王映 ,常毅 ,谭建龙 . 计算机工程与应用 . 2005,第005期
5. 基于上下文关系的文本分类特征描述方法 [J] . 何中市 ,刘里 . 计算机科学 . 2007,第005期
6. 基于上下文图模型文本表示的文本分类研究 [C] . . 第四届全国信息检索与内容安全学术会议 . 2008
7. 信息检索中基于深度学习的文本表示与分类方法研究 [A] . 许奥狄 . 2019

基于深度学习的上下文关系在文本表示与分类上的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅