首页> 中文学位 >基于双语句法短语的统计机器翻译研究
【6h】

基于双语句法短语的统计机器翻译研究

代理获取

目录

声明

摘要

1 绪论

1.1 研究背景

1.2 研究意义

1.3 统计机器翻译研究现状

1.4 本文的主要工作

1.5 本文的组织结构

2 统计机器翻译理论基础

2.1 语言模型

2.1.1 n元语法语言模型

2.1.2 数据平滑

2.1.3 其它语言模型

2.2 翻译模型

2.2.1 词对齐

2.2.2 IBM模型

2.3 统计机器翻译评测方法

3 基于短语的统计机器翻译

3.1 学习短语表

3.2 调序模型

3.3 解码

3.3.1 假设扩展与重组

3.3.2 未来代价估计

4 基于EM算法的双语句法短语抽取

4.1 短语结构对齐搜索算法

4.1.1 局部对齐结构

4.1.2 局部对齐的归并

4.2 基于EM算法的短语结构对齐

5 基于双语句法短语的统计机器翻译

5.1 扩展训练语料规模后的重训练模型

5.2 加入句法短语特征的训练模型

5.3 扩展短语表后的训练模型

6 实验结果与分析

6.1 实验数据

6.2 实验步骤

6.3 实验结果

结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

展开▼

摘要

随着语料库语言学的发展和计算机性能的提高,机器翻译的效果越来越好,并获得广泛的应用。研究人员不断探究机器翻译的新方法,从基于词的统计机器翻译方法,到基于短语的统计机器翻译方法,再到基于句法的机器翻译方法,机器翻译的性能也不断提高。
  基于短语的统计机器翻译方法将短语作为基本单位来翻译,充分利用到了短语内部的词序,对比基于词的统计机器翻译方法的效果有很大提高。但基于短语的统计机器翻译方法未充分利用句子的语言学信息,长距离调序效果不好。基于句法的统计机器翻译方法利用语言学意义上的短语作为基本单位,利用到了句子中的句法信息。但基于句法的统计机器翻译方法受句法分析准确率影响严重,同时对句法短语要求严格,这种严格的要求会损失掉一部分有益于机器翻译的非句法短语。
  鉴于基于短语的统计机器翻译和基于句法的统计机器翻译以上的不足,本文提出基于双语句法短语的统计机器翻译方法,利用双语句法短语来提高机器翻译的性能。首先,本文提出一种基于EM(Expectation-maximization)算法的双语句法短语抽取方法来抽取双语句法短语。然后将抽取到的双语句法短语通过以下三种方法应用到基于短语的统计机器翻译系统中:
  (1)将抽取到的双语句法短语作为双语句对加入到训练语料中,利用扩展后的训练语料重新训练翻译模型。
  (2)将抽取到的双语句法短语加入到短语表中,重新计算短语对各个特征的特征值。
  (3)增加一个句法短语特征到短语表中,即短语表中出现的短语是否为句法意义上的短语特征,若短语表中的短语为句法意义上的短语,则其句法短语特征为“1”,否则其句法特征为“0”。
  实验结果表明,双语句法短语能够提高机器翻译性能。三种方法都不同程度提高了译文的BLEU(Bilingual Evaluation Understudy)值。基线系统的BLEU值为0.2253;方法(1)的BLEU值为0.2276;方法(2)的BLEU值为0.2294;方法(3)的BLEU值为0.2317。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号