首页> 中文学位 >特定领域命名实体识别通用方法的研究
【6h】

特定领域命名实体识别通用方法的研究

代理获取

目录

声明

致谢

摘要

1.1 研究背景及意义

1.2 研究现状

1.2.1 命名实体识别研究现状

1.2.2 特定领域命名实体识别的研究现状

1.3 研究内容与目标

1.4 论文组织结构

2 相关理论与技术基础

2.1 特定领域命名实体识别通用方法实现的难点

2.1.1 特征的选取

2.1.2 标注样本匮乏

2.2 条件随机场

2.3 神经网络的词向量

2.3.1 词向量的定义

2.3.2 词向量模型训练

2.4 半监督学习与主动学习

2.4.1 半监督学习

2.4.2 主动学习

2.5 本章小结

3 基于词向量和条件随机场的特定领域命名实体识别方法

3.1 基本思想与方法

3.2.1 语料标注

3.2.2 统计特征选取

3.3 词向量相似度特征

3.3.1 Wrod2vec训练词向量

3.3.2 相似度特征计算

3.3.3 训练实验结果与分析

3.4 实验设置及实验结果分析

3.4.1 实验评价标准

3.4.2 实验设置

3.4.3 实验结果及分析

3.5 本章小结

4 主动学习和自学习相结合的特定领域命名实体识别

4.1 融合动机

4.1.1 自学习算法的弊端

4.1.2 主动学习算法的弊端

4.2 算法描述

4.2.1 基于置信度的样本选择

4.2.2 算法的处理流程

4.3 实验设置与实验结果分析

4.3.1 自学习算法与主动学习算法结合方法验证实验

4.3.2 主动学习算法样本选取实验

4.3.3 自学习算法样本选取实验

4.4 本章小结

5 总结与展望

参考文献

作者简历及攻读硕士学位期间取得的研究成果

学位论文数据集

展开▼

摘要

命名实体识别对文本中固有名称、标识进行识别,是自然语言处理的基础任务之一,被广泛用于信息抽取、机器翻译、信息检索等多种任务中。命名实体识别在多种领域已经取得了较好的识别效果,但识别方法多根据领域文本特点设计,不具有普遍性与适应性。经过调研与分析,本文尝试使用基于条件随机场、自学习算法和主动学习算法相结合的方式,实现一个特定领域命名实体识别的通用方法,适用大多数特定领域。
  特定领域命名实体识别的通用方法实现过程中有两个难点。首先,使用条件随机场对特定领域进行命名实体识别时,根据领域特性选取的特征具有领域独立性,且选取特征的人员需要丰富的专业领域知识。其次,特定领域文本的大规模标注语料难以获取。针对上述两个难点,本文完成了以下工作:
  (1)基于词向量相似度特征的条件随机场训练。首先使用Word2vec进行词向量训练,通过词向量本身验证词向量包含丰富的语义和领域特性,以及不同语料与不同维度的词向量具有一定的差异性。然后选取任何领域都包含的通用统计特征,以及词向量相似度特征,以递增式学习的策略选择最小完备特征集合参与条件随机场的训练,使得模型具有适应性和领域性。本文在交通领域文本验证了该方法,实验结果表明,词向量相似度特征对提高识别效果有积极的作用。但由于标注样本过少,识别效果仍不理想。
  (2)在基于使用词向量相似度特征的条件随机场的基础上,采用自学习算法和主动学习算法相结合的方式进一步训练模型。迭代过程中,利用主动学习选取低置信度样本进行人工标注,克服了自学习算法选取过多与原训练样本效用相似数据的问题,以及因初始分类器错误导致标注错误累积的问题,同时利用自学习算法选取高置信度样本自行标注,克服主动学习算法不能有效利用富含信息量样本的问题。实验结果表明,结合上述两种方法的迭代训练相较于仅使用一种方法的训练能更有效地提升识别效果。并通过单一变量变化的方法验证了置信度阈值的选取对模型性能的影响以及人工标注量的影响。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号