基于词汇化统计模型的汉语句法分析研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

句法分析是自然语言处理的一个基本问题。许多自然语言处理任务，如机器翻译、信息获取、自动文摘等都要依赖句法分析的精确结果才能最终获得满意的解决。另一方面，语言是思维的载体，对自然语言句法分析的研究有助于研究人类思维的本质，因此对自然语言句法分析的研究具有重要的理论和实用价值及深刻的哲学意义。
　　总体上来看，由于起步较晚、树库资源缺乏等原因，汉语句法分析技术不如英语句法分析技术发展的迅速。目前的汉语句法分析技术还满足不了各种中文信息处理系统的要求，所以对汉语句法分析的研究既意义重大又任重道远。目前的主流技术还是基于统计的方法，本文主要研究统计框架下汉语句法分析问题。本文工作分四个部分进行，具体内容如下：
　　1、对句子进行词性标注是句法分析的一个重要环节。本文提出一种基于二元同现的汉语词性标注模型。在隐马尔可夫模型的基础上，引入二元词汇信息来加强词性标注模型的歧义消解能力。该方法具有简单、快速、有效的特点。
　　2、统计句法分析的基本理论是构建基于统计句法分析模型的基础，已有的典型句法分析模型是汉语句法分析建模的经验来源和参照目标。本文率先在宾州中文树库5.0上应用中心驱动模型进行汉语句法分析实验，取得了比较成功的效果，验证了应用词汇化统计模型进行汉语句法分析的可行性。
　　3、提出了一个两级中文句法分析方法。根据我们定义的30种短语类型，提出了一个分治策略：即把所有的短语分为基本短语和复杂短语，针对两种短语的语言特点，采用不同的模型来识别它们。首先，把基本短语识别转化为最佳边界标记序列的搜索问题，提出一个基于马尔可夫模型的基本短语识别方法。在此基础上，识别汉语复杂短语。实验结果表明，两级中文句法分析方法一方面可以显著提高句法分析系统的精确率和召回率，另一方面还有效降低了句法分析的复杂度，使系统处理文本的速度得到了提高。
　　4、提出了一种基于语义类的汉语句法分析方法。该方法以中心驱动模型为基础，把自动获取的语义类融入到句法分析模型中，为消解句法歧义提供语义类信息。利用一部语义词典，应用最小描述长度原理，自动地为句法分析模型确定一个粒度在词性与词汇之间的语义类。实验结果表明：与词汇信息相比，粒度适中的语义类能够更加显著地提升汉语句法分析模型的性能。该方法确定的语义特征对于汉语句法分析建模具有重要意义。

著录项

作者
曹海龙;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机应用技术
授予学位博士
导师姓名李生;
年度 2006
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
自然语言处理; 汉语句法分析; 词汇化统计模型; 语义特征;

相似文献

中文文献
外文文献
专利

1. 基于词汇化模型的汉语句法分析 [J] . 曹海龙 ,赵铁军 ,李生 . 电子与信息学报 . 2007,第009期
2. 基于范畴化理论的对外汉语词汇教学探析——以《发展汉语》初级综合Ⅰ词汇教学为例 [J] . 钱伟 ,仲阳 . 嘉应学院学报 . 2021,第002期
3. 汉语词汇与语法结合研究的新模式——《词汇—句法语义的衔接研究》读后 [J] . 匡鹏飞 . 湖南科技学院学报 . 2013,第010期
4. 《词汇等级划分》与国别化汉语词汇教学关系研究——基于《实用泰汉翻译教程》词汇的等级分析 [J] . 姜薇 . 现代语文（语言研究） . 2012,第012期
5. 句法位置对短语词汇化和语法化的制约——以"再说"的词汇化和语法化为例 [J] . 张金圈 ,刘清平 . 齐鲁学刊 . 2011,第001期
6. 基于三元统计模型的汉语分词及标注一体化研究 [C] . 高山 ,张艳 ,徐波 . 全国第六届计算语言学联合学术会议 . 2001
7. 汉语非句法结构的词汇化 [A] . 刘红妮 . 2009

基于词汇化统计模型的汉语句法分析研究

摘要

著录项

相似文献

相关主题

期刊订阅