首页> 中文学位 >蒙古语词法标注语料库的构建及相关技术研究
【6h】

蒙古语词法标注语料库的构建及相关技术研究

代理获取

目录

文摘

英文文摘

资金来源

第一章 引言

1.1 选题背景及意义

1.2 词法标注方法介绍

1.2.1 基于规则的词法标注方法

1.2.2 基于统计的词法标注方法

1.2.3 规则和统计相结合的方法

1.3 蒙古语词法标注研究现状

1.4 研究方法及语料库介绍

1.4.1 研究方法

1.4.2 20万词级词法标注语料库

1.5 论文的主要工作

1.6 论文结构

第二章 MGLEX系统介绍

2.1 蒙古语构形特征

2.2 模型结构

2.3 实验

第三章 语料库校对

3.1 标记集问题

3.2 理论问题

3.2.1 复数后缀问题

3.2.2 数词的标注问题

3.2.3 名词的标注问题

3.2.4 “UGEI”的标注

3.2.5 第二类助动词的标注

3.2.6 其他

3.3 技术问题

第四 章MGLEX系统的改进

4.1 语料库分析

4.2 具体措施

4.2.1 规则导致的错误及解决方案

4.2.2 未登录词干的识别问题

4.2.3 人名地名标注错误及解决方案

4.2.4 兼类词处理

4.3 实验

结论

参考文献

附录1 :20万语料库TXT格式

附录2 :20万语料库中出现的兼类词

附录3 :MGLEX系统标注结果示例:(NARAN-V D00R_A)

致谢

攻读硕士学位期间发表过的学术论文

展开▼

摘要

近年来,随着统计方法在自然语言处理中的广泛应用,语料库语言学已经成为一个十分引人注目的研究方向。语料库语言学已经成为语言研究的主流。基于语料库的自然语言处理需要对原始的语料进行不同层次的加工,才能从中获取所需的语言知识。
   词法标注是语料库最基本的加工,蒙古文信息处理工作的词处理阶段,词法标注是多项后续工作的基础。如:词汇和词尾的统计,各种词典的编制,进行句处理,篇章处理等都需要以正确的“切分标注”为基础。
   本论文围绕蒙古语的词法标注,研究了相关的技术问题。首先对20万词级词法标注语料库进行了人工校对,对其存在的问题提出了具体的解决方案;其次,利用规则方法改进了基于统计的Mglex词法分析器。实验结果表明,统计和规则相结合的Mglex系统,得到了令人满意的切分标注结果:以20万词级词法标注语料库为训练语料,系统的消歧率从原来的84.6%提高到90.1%;系统的正确率由原来的93.5%提高到97.7%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号