基于词向量表征的新词发现及命名实体识别研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

数据挖掘中结构化数据的挖掘分析相对成熟，但非结构化的数据挖掘分析面临许多挑战。文本数据是一种非常重要的非结构化数据，对于该种数据类型的挖掘分析面临着更多的挑战，主要面临如中文分词、命名实体识别、实体关系抽取、语义理解，情感分析等等一系列的问题。其中，分词技术几乎是绝大多数中文文本数据挖掘分析的基础步骤。然而，由于人们总是在不断地创造新的词汇，这些新词是不可能被人们完全收录，所以会导致分词错误，从而引致命名实体的标记错误。因此，新词识别已经成为文本挖掘的一个难点和瓶颈问题。
　　近几年利用神经网络或深度学习训练语言模型而得到的词向量表征能够很好的表征词与词之间的语义关系，受此启发，本文把这种词向量表征用于中文的新词发现识别中，提出了一个基于词向量表征和n-gram相结合的无监督的新词发现方法。
　　首先，本文通过训练神经网络语言模型把词映射到一个高维空间，并且对比了Skip-gram模型和CBOW模型得到的词向量对新词结果的影响，发现Skip-gram模型能够取得更好效果。其次，考虑到如果几个相邻的词经常的共同出现在不同的词序列中，那么他们一定存在某种关系。本文受关联规则算法的启发，设计了高效的n-gram挖掘算法，把挖掘出的n-gram作为新词候选词串。接着，本文利用训练好的词向量对候选词串进行剪枝，剔除噪音数据，从而得到新词结果。本文还设计了剪枝算法，并且对比了不同向量相似性度量方法对最终结果的影响，发现余弦相似性剪枝效果最好。同时，本文也和其他新词发现方法做了相应对比，证实了本文方法的有效性。最后，本文在新词结果的基础上，进一步利用条件随机场对结果进行分类，从而实现命名实体词的识别。
　　本文的主要贡献为：
　　（1）在中文新词识别领域引入了神经网络训练的词向量，把词向量和n-gram相结合，提出了一种新的无监督的新词识别方法。
　　（2）在新词发现的基础上利用条件随机场对新词进行分类并识别出其中的命名实体词，为命名实体识别提出了一种新的实践。

著录项

作者
杜洋;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科工业工程
授予学位硕士
导师姓名钱宇;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
词向量表征; 新词识别; 剪枝算法; n-gram挖掘;

相似文献

中文文献
外文文献
专利

1. 基于词向量的情感新词发现研究 [J] . 胡创业 . 信息与电脑 . 2021,第017期
2. 基于条件随机场和词向量的能源政策领域新词发现 [J] . 张一帆 ,张军莲 ,汪鸣泉 . 南京理工大学学报（自然科学版） . 2021,第001期
3. 基于句法分析与词向量的领域新词发现方法 [J] . 赵志滨 ,石玉鑫 ,李斌阳 . 计算机科学 . 2019,第006期
4. 基于新词发现和Lattice-LSTM的中文医疗命名实体识别 [J] . 赵耀全 ,车超 ,张强 . 计算机应用与软件 . 2021,第001期
5. 基于词向量与CRF的命名实体识别研究 [J] . 敬星 . 无线互联科技 . 2017,第001期
6. 新词语发现手段和新词语词典编纂浅谈 [C] . 谢俊英 . 第五届全国语言文字应用学术研讨会 . 2007
7. 基于“时间”、“频率”概念和“新词语发现软件”的报刊新词语研究 [A] . 樊小玲 . 2005

基于词向量表征的新词发现及命名实体识别研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅