特定领域命名实体识别通用方法的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

命名实体识别对文本中固有名称、标识进行识别，是自然语言处理的基础任务之一，被广泛用于信息抽取、机器翻译、信息检索等多种任务中。命名实体识别在多种领域已经取得了较好的识别效果，但识别方法多根据领域文本特点设计，不具有普遍性与适应性。经过调研与分析，本文尝试使用基于条件随机场、自学习算法和主动学习算法相结合的方式，实现一个特定领域命名实体识别的通用方法，适用大多数特定领域。
　　特定领域命名实体识别的通用方法实现过程中有两个难点。首先，使用条件随机场对特定领域进行命名实体识别时，根据领域特性选取的特征具有领域独立性，且选取特征的人员需要丰富的专业领域知识。其次,特定领域文本的大规模标注语料难以获取。针对上述两个难点，本文完成了以下工作:
　　(1)基于词向量相似度特征的条件随机场训练。首先使用Word2vec进行词向量训练，通过词向量本身验证词向量包含丰富的语义和领域特性，以及不同语料与不同维度的词向量具有一定的差异性。然后选取任何领域都包含的通用统计特征，以及词向量相似度特征，以递增式学习的策略选择最小完备特征集合参与条件随机场的训练，使得模型具有适应性和领域性。本文在交通领域文本验证了该方法，实验结果表明，词向量相似度特征对提高识别效果有积极的作用。但由于标注样本过少，识别效果仍不理想。
　　(2)在基于使用词向量相似度特征的条件随机场的基础上，采用自学习算法和主动学习算法相结合的方式进一步训练模型。迭代过程中，利用主动学习选取低置信度样本进行人工标注，克服了自学习算法选取过多与原训练样本效用相似数据的问题，以及因初始分类器错误导致标注错误累积的问题，同时利用自学习算法选取高置信度样本自行标注，克服主动学习算法不能有效利用富含信息量样本的问题。实验结果表明，结合上述两种方法的迭代训练相较于仅使用一种方法的训练能更有效地提升识别效果。并通过单一变量变化的方法验证了置信度阈值的选取对模型性能的影响以及人工标注量的影响。

著录项

作者
张磊;
展开▼
作者单位

北京交通大学;

展开▼
授予单位北京交通大学;
学科计算机科学与技术
授予学位硕士
导师姓名高勃;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类信息处理（信息加工）;
关键词
命名实体识别; 特定领域; 条件随机场; 词向量; 自学习算法; 主动学习算法;

相似文献

中文文献
外文文献
专利

1. 特定领域的命名实体识别方法的研究 [J] . 依力达尔·依明 . 电脑知识与技术 . 2020,第008期
2. 特定领域的命名实体识别方法的研究 [J] . 张磊 . 计算机与现代化 . 2018,第003期
3. 基于大数据和BiLSTM+CRF的网络空间安全领域命名实体识别研究 [J] . 陈雄 ,李昕昕 ,李碧君 . 信息与电脑 . 2021,第004期
4. 基于大数据和BiLSTM+CRF的网络空间安全领域命名实体识别研究 [J] . 陈雄 ,李昕昕 ,李碧君 . 信息与电脑 . 2021,第004期
5. 基于BERT_IDCNN_CRF的军事领域命名实体识别研究 [J] . 张祺 ,李成军 ,刘敬蜀 . 航天电子对抗 . 2021,第005期
6. 基于信息熵的机械设计领域的命名实体识别研究 [C] . CHEN Qiu-yuan ,陈秋瑗 ,CHENG Guang . 第十九届网络新技术与应用年会 . 2015
7. 基于深度学习的中文特定领域命名实体识别方法研究 [A] . 李独运 . 2019

特定领域命名实体识别通用方法的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅