声明
摘要
1 绪论
1.1 词性标注任务描述
1.2 相关背景及研究现状
1.2.1 背景及意义
1.2.2 研究方法
1.2.3 研究现状
1.3 研究难点
1.3.1 兼类词的选择
1.3.2 未登录词的标注
1.3.3 金标语料资源匮乏
1.3.4 数据稀疏
1.4 本文的工作
2 理论背景及相关模型
2.1 语言模型
2.1.1 统计语言模型的概念
2.1.2 N元语法模型
2.2 序列标注
2.3 隐马尔科夫模型
2.3.1 隐马尔科夫基本原理
2.3.2 维特比算法
2.4 词向量及聚类算法
2.4.1 word2vec模型简介
2.4.2 K-means算法
2.4.3 K近邻算法
2.5 词性标注集
3 半监督隐马尔科夫词性标注模型
3.1 词性标注总体流程
3.2 模型的具体实现
3.2 .1 隐马尔科夫模型参数的获取
3.2.2 半监督学习
3.2.3 未登录词的处理
3.2.4 词性标注
3.3 实验
3.3.1 实验语料
3.3.2 各阶段结果对比
3.3.3 不同实验方法的对比
3.3.4 实验结果分析
3.4 本章小结
4 不同领域语料的词性标注
4.1 迁移学习
4.2 低频未登录词的词性选择
4.3 数据平滑
4.4 实验
4.4.1 实验整体流程
4.4.2 实验语料的获取
4.4.3 迁移学习用于词性标注
4.4.4 低频未登录词的标注效果
4.4.5 实验结果分析
4.5 本章小结
结论
参考文献
攻读硕士学位期间发表学术论文情况
致谢