首页> 中文学位 >基于词向量表征的新词发现及命名实体识别研究
【6h】

基于词向量表征的新词发现及命名实体识别研究

代理获取

目录

第一章 绪论

1.1 研究背景

1.2研究问题

1.3 研究意义及创新点

1.4 论文结构

第二章 相关文献综述

2.1 新词发现

2.2 命名实体识别

2.3 词向量表征

2.4 本章小结

第三章 新词发现及命名实体词识别方法

3.1 研究概述

3.2 词向量表征

3.3 新词发现

3.4 命名实体识别

第四章 词向量训练

4.1 词表征介绍

4.2 神经网络语言模型原理

4.3 词向量训练方法

4.4 词向量训练实验结果

4.5 本章小结

第五章 新词识别

5.1 问题概述

5.2 n-gram词串挖掘方法

5.3 词向量剪枝方法

5.4 实验结果

5.5 本章小结

第六章 命名实体识别

6.1 条件随机场原理

6.2 命名实体识别方法

6.3 实验结果

6.4 本章小结

第七章 总结及展望

7.1 本文工作总结

7.2 未来工作展望

致谢

参考文献

攻读硕士期间取得成果

展开▼

摘要

数据挖掘中结构化数据的挖掘分析相对成熟,但非结构化的数据挖掘分析面临许多挑战。文本数据是一种非常重要的非结构化数据,对于该种数据类型的挖掘分析面临着更多的挑战,主要面临如中文分词、命名实体识别、实体关系抽取、语义理解,情感分析等等一系列的问题。其中,分词技术几乎是绝大多数中文文本数据挖掘分析的基础步骤。然而,由于人们总是在不断地创造新的词汇,这些新词是不可能被人们完全收录,所以会导致分词错误,从而引致命名实体的标记错误。因此,新词识别已经成为文本挖掘的一个难点和瓶颈问题。
  近几年利用神经网络或深度学习训练语言模型而得到的词向量表征能够很好的表征词与词之间的语义关系,受此启发,本文把这种词向量表征用于中文的新词发现识别中,提出了一个基于词向量表征和n-gram相结合的无监督的新词发现方法。
  首先,本文通过训练神经网络语言模型把词映射到一个高维空间,并且对比了Skip-gram模型和CBOW模型得到的词向量对新词结果的影响,发现Skip-gram模型能够取得更好效果。其次,考虑到如果几个相邻的词经常的共同出现在不同的词序列中,那么他们一定存在某种关系。本文受关联规则算法的启发,设计了高效的n-gram挖掘算法,把挖掘出的n-gram作为新词候选词串。接着,本文利用训练好的词向量对候选词串进行剪枝,剔除噪音数据,从而得到新词结果。本文还设计了剪枝算法,并且对比了不同向量相似性度量方法对最终结果的影响,发现余弦相似性剪枝效果最好。同时,本文也和其他新词发现方法做了相应对比,证实了本文方法的有效性。最后,本文在新词结果的基础上,进一步利用条件随机场对结果进行分类,从而实现命名实体词的识别。
  本文的主要贡献为:
  (1)在中文新词识别领域引入了神经网络训练的词向量,把词向量和n-gram相结合,提出了一种新的无监督的新词识别方法。
  (2)在新词发现的基础上利用条件随机场对新词进行分类并识别出其中的命名实体词,为命名实体识别提出了一种新的实践。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号