首页> 中文学位 >中文语句压缩关键技术研究
【6h】

中文语句压缩关键技术研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景

1.2 研究现状

1.2.1 国外研究现状

1.2.1 国内研究现状

1.3 本文主要工作和贡献

1.4 本文组织结构

第2章 语句压缩相关概念简介

2.1 语句压缩简介

2.2 语句压缩语料库

2.3 语句自动压缩方法

2.3.1 噪音信道模型

2.3.2 决策树模型

2.3.3 基于在线学习方法的压缩模型

2.4 语料预处理

2.4.1 中文分词

2.4.2 词对齐

2.4.3 句法分析

2.5 语句压缩评价方法

2.5.1 人工评价指标

2.5.2 自动评价指标

2.5.3 人工评价与自动评价比较

2.5.4 自动评价方法的评价

2.6 本章小结

第3章 中文语句压缩规则及语料库构建

3.1 语句压缩语料库简介

3.2 中文语句压缩语料库构建

3.2.1 语料选取

3.2.2 现代汉语句子成分分析

3.2.3 中文语句压缩规则

3.2.4 语料库构建实施方案

3.2.5 语料库质量控制

3.2.6 语料库应用

3.3 本章小结

第4章 中文语句自动压缩系统

4.1 系统框架

4.2 数据预处理

4.3 同步树替换文法

4.4 规则抽取

4.5 线性模型

4.6 模型训练

4.7 解码

4.8 本章小结

第5章 中文语句压缩评价与分析

5.1 中文语句压缩评价介绍

5.2 人工评价

5.2.1 人工评价指标

5.2.2 评价过程实施

5.2.3 人工评价结果与分析

5.3 自动评价

5.3.1 自动评价指标

5.3.2 自动评价结果与分析

5.3.3 人工评价与自动评价比较

5.4 自动评价方法的评价

5.4.1 实验设置

5.4.2 结果与分析

5.5 本章小结

第6章 工作总结与展望

6.1 本文主要工作

6.2 未来工作展望

参考文献

致谢

攻读硕士期间发表的论文及参与的项目

展开▼

摘要

近年来,随着计算机和互联网的广泛应用和迅速发展,自然语言处理技术正进入到一个飞速发展的时代。与此同时,如何从海量数据中迅速面准确的获取有价值的信息越来越受到研究人员的关注。语句压缩技术作为解决这一问题的基本技术具有很高的现实意义。语句压缩可以应用于自动文摘、问答系统和机器翻译等诸多任务中。
  本文以语句压缩为核心,提出了中文语句压缩规范,并在规范指导下人工标注了一个语料库。利用该语料库,本文构建了一个针对中文任务的自动压缩系统,并采用人工和自动两类指标对压缩结果进行评价。
  本文的主要工作和贡献主要包括以下几个方面:
  (1)鉴于目前语句压缩任务的主流研究方向集中于有监督的学习方法,而缺乏大规模适用于该任务的平行语料库给研究工作带来了很大的挑战。因此,本文根据中文语言结构特点,提出了一套中文语句压缩语料库标注规范,并在该规范指导下构建了语料库NEUCSS,共3308组“原语句-压缩句”句对。NEUCSS填补了目前适用于该任务的语料库的空白,为未来相关研究工作提供良好的数据基础。另外,本文还介绍了整个语料库的标注实施过程以及质量控制手段。
  (2)利用NEUCSS语料库,构建了一套针对中文任务的自动语句压缩系统。系统基于同步树替换文法,在预处理生成平行句法树的基础上进行规则抽取,之后采用支持结构化输出的支持向量机算法学习模型参数,并利用该参数对测试句子进行解码,获得最终压缩结果。
  (3)进行了中文语句压缩任务的评价指标的研究。主要有人工评价和自动评价两种方法。由于人工评价结果准度高,可信性强,因此目前大部分的研究工作都以采用人工评价指标为主。因此,本文也从语法正确性和语意完整性两个角度对系统压缩结果进行了人工评价和分析。然而人工评价时间和人力成本过高,因此,本文引入了压缩率、BLEU、NIST、GTM、WER、PER、TER及Relations F1几种自动评价指标,并通过实验分析发现几种自动评价指标与人工评价有良好的相关性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号