首页> 中文学位 >基于语义指纹和云模型的动态词义变化程度研究
【6h】

基于语义指纹和云模型的动态词义变化程度研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 本文主要研究内容

1.4 文章结构安排

第二章 相关理论与技术研究

2.1 词向量

2.1.1 词向量概述

2.1.2 词向量的训练

2.2 云模型简要介绍

2.2.1 云模型的数学基础

2.2.2 云模型的定义及数字特征

2.2.3 正态云发生器

2.3 本章小结

第三章 基于词向量的语义指纹

3.1 问题引出

3.2 Pos-CBOW模型

3.2.1 word2vec模型

3.2.2 Pos-CBOW模型的结构

3.2.3 词向量训练

3.3 语义指纹的获取

3.4 实验设计和结果分析

3.4.1 实验过程

3.4.2 评价指标及数据集

3.4.3 关于词向量模型参数的实验

3.4.4 结果分析

3.5 本章总结

第四章 基于云模型的动态词义变化程度研究

4.1 问题引入

4.2 概念云的生成

4.3 基于贴近度的云相似度计算

4.4 实验结果及分析

4.4.1 实验过程

4.4.2 实验结果及分析

4.5 本章总结

第五章 工作总结与展望

5.1 工作总结

5.2 工作展望

参考文献

攻读硕士学位期间参加的科研项目

致谢

展开▼

摘要

词作为语言的基础,具有相对的稳定性。但是语言是不断往前发展的,作为语言的一种成分,词又具备着语言的发展变化性。随着互联网的发展,信息成指数级增长。在网络这样特殊的环境下,许多汉语词语的语义发生了显著的变化。如何深入了解网络词义的构成要素,准确全面提炼网络词义的静态特征和动态特征,进而给出集合静态要素和动态要素于一体的网络词义的形式化表示方式,是一项有重大意义且有挑战性的研究工作。
  在传统的语言学中,词义的演变是一个重要的课题,取得了很多显著的成就。但在语言学上对词义的发展演变只能进行定性的分析,需要精确的进行数据收集,耗费大量的人工。而在定量的研究上,往往使用一些简单的统计量,例如词频,上下文相关度等作为词义变化的度量,结果很难具有说服性。因此本文提出具有统计学意义上的研究方法,对词义变化现象进行深入的发掘,给语言学家及自然语言处理等领域的学者提供参考。
  本文基于词义的表示方法,改进深度学习中词向量训练模型,得到词的向量化表示。在此基础上,通过词之间的语义关联,实现了基于词向量的语义指纹获取方法。我们以历时的语料库作为训练语料,获取不同时间段词义的语义指纹,通过云模型,获取其数字特征。通过对相似云的相似度计算,我们可以得到词义的变化程度,从而发现词语的语义变化程度。
  第三章提出一种基于词向量的语义指纹获取方法,该方法使用大规模语料库进行模型训练,可以获取更多的语义关联信息。首先,本文在基于word2vec的基础上,通过在训练过程中加入词性标注信息,给出Pos-CBOW模型,能得到效果更好的词向量。通过词向量之间的相似度计算,获取词义之间的语义关联。将和中心词的相似度大于一定阂值的词作为中心词的语义指纹。提出基于词向量的语义指纹获取方法,能更好的形式化表达词义。
  第四章在第三章的基础上,通过云模型的定性定量转换理论,获取词义的数字特征。针对历时的语料库训练出来的词义,我们利用相似云的相似度计算公式来计算词义的动态变化程度。
  本文第三章用2015年新浪新闻,共1G的文本作为训练语料。将wordSimilarity-353和words-240作为测试集。从实验结果可以看出,文中提出的基于词向量的语义指纹方法在斯皮尔曼相关系数和皮尔逊相关系数上有良好的表现。这也间接表明本文方法的可行性。在第四章中,以历时的语料库作为训练语料,通过计算不同时段词义的概念云的相似度,来发现词义是否发生改变。实验结果表明,我们的方法可以有效的计算词义的改变程度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号