首页> 中文学位 >基于词汇化统计模型的汉语句法分析研究
【6h】

基于词汇化统计模型的汉语句法分析研究

代理获取

摘要

句法分析是自然语言处理的一个基本问题。许多自然语言处理任务,如机器翻译、信息获取、自动文摘等都要依赖句法分析的精确结果才能最终获得满意的解决。另一方面,语言是思维的载体,对自然语言句法分析的研究有助于研究人类思维的本质,因此对自然语言句法分析的研究具有重要的理论和实用价值及深刻的哲学意义。
  总体上来看,由于起步较晚、树库资源缺乏等原因,汉语句法分析技术不如英语句法分析技术发展的迅速。目前的汉语句法分析技术还满足不了各种中文信息处理系统的要求,所以对汉语句法分析的研究既意义重大又任重道远。目前的主流技术还是基于统计的方法,本文主要研究统计框架下汉语句法分析问题。本文工作分四个部分进行,具体内容如下:
  1、对句子进行词性标注是句法分析的一个重要环节。本文提出一种基于二元同现的汉语词性标注模型。在隐马尔可夫模型的基础上,引入二元词汇信息来加强词性标注模型的歧义消解能力。该方法具有简单、快速、有效的特点。
  2、统计句法分析的基本理论是构建基于统计句法分析模型的基础,已有的典型句法分析模型是汉语句法分析建模的经验来源和参照目标。本文率先在宾州中文树库5.0上应用中心驱动模型进行汉语句法分析实验,取得了比较成功的效果,验证了应用词汇化统计模型进行汉语句法分析的可行性。
  3、提出了一个两级中文句法分析方法。根据我们定义的30种短语类型,提出了一个分治策略:即把所有的短语分为基本短语和复杂短语,针对两种短语的语言特点,采用不同的模型来识别它们。首先,把基本短语识别转化为最佳边界标记序列的搜索问题,提出一个基于马尔可夫模型的基本短语识别方法。在此基础上,识别汉语复杂短语。实验结果表明,两级中文句法分析方法一方面可以显著提高句法分析系统的精确率和召回率,另一方面还有效降低了句法分析的复杂度,使系统处理文本的速度得到了提高。
  4、提出了一种基于语义类的汉语句法分析方法。该方法以中心驱动模型为基础,把自动获取的语义类融入到句法分析模型中,为消解句法歧义提供语义类信息。利用一部语义词典,应用最小描述长度原理,自动地为句法分析模型确定一个粒度在词性与词汇之间的语义类。实验结果表明:与词汇信息相比,粒度适中的语义类能够更加显著地提升汉语句法分析模型的性能。该方法确定的语义特征对于汉语句法分析建模具有重要意义。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号