首页> 中文学位 >基于半监督隐马尔科夫的汉语词性标注研究
【6h】

基于半监督隐马尔科夫的汉语词性标注研究

代理获取

目录

声明

摘要

1 绪论

1.1 词性标注任务描述

1.2 相关背景及研究现状

1.2.1 背景及意义

1.2.2 研究方法

1.2.3 研究现状

1.3 研究难点

1.3.1 兼类词的选择

1.3.2 未登录词的标注

1.3.3 金标语料资源匮乏

1.3.4 数据稀疏

1.4 本文的工作

2 理论背景及相关模型

2.1 语言模型

2.1.1 统计语言模型的概念

2.1.2 N元语法模型

2.2 序列标注

2.3 隐马尔科夫模型

2.3.1 隐马尔科夫基本原理

2.3.2 维特比算法

2.4 词向量及聚类算法

2.4.1 word2vec模型简介

2.4.2 K-means算法

2.4.3 K近邻算法

2.5 词性标注集

3 半监督隐马尔科夫词性标注模型

3.1 词性标注总体流程

3.2 模型的具体实现

3.2 .1 隐马尔科夫模型参数的获取

3.2.2 半监督学习

3.2.3 未登录词的处理

3.2.4 词性标注

3.3 实验

3.3.1 实验语料

3.3.2 各阶段结果对比

3.3.3 不同实验方法的对比

3.3.4 实验结果分析

3.4 本章小结

4 不同领域语料的词性标注

4.1 迁移学习

4.2 低频未登录词的词性选择

4.3 数据平滑

4.4 实验

4.4.1 实验整体流程

4.4.2 实验语料的获取

4.4.3 迁移学习用于词性标注

4.4.4 低频未登录词的标注效果

4.4.5 实验结果分析

4.5 本章小结

结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

展开▼

摘要

随着信息技术和网络技术的不断进步与发展,计算机成为了人类生活必不可少的一种工具。由计算机智能地处理人类语言的技术,即自然语言处理(Natural LanguageProcessing,NLP)技术便应运而生。词性标注(Part-Of-Speech Tagging)作为其中较为基础的一种预处理程序,对后续的工作和课题研究都起着至关重要的作用。
  本文使用基于隐马尔科夫模型(Hidden Markov Model)的词性标注方法,从如下几个方面进行了改进,以提高标注的准确率。首先,利用小规模训练语料进行半监督学习,通过反复迭代不断扩充语料,增强马尔科夫标注效果,尤其对于不同领域的语料,这种迁移学习也能提高标注准确率;其次,通过词语相似度的方法,给每个高频的未登录词都标上候选词性,对于频率低于10的低频未登录词,则采用相似字符串查找的方式找到相似上下文,用于标记词性;最后,在隐马尔科夫标注时,不仅选取一条路径,而是选两条最佳路径,并通过二次选择,得到最后标注结果。实验证明,该方法与传统隐马尔科夫标注方法相比提高了2.6%,汉语词性标注准确率达到了95.65%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号