首页> 中文学位 >云翻译平台下基于海量语料的统计机器翻译方法研究
【6h】

云翻译平台下基于海量语料的统计机器翻译方法研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 机器翻译概述

1.2 统计机器翻译概述

1.2.1 噪声信道模型

1.2.2 对数线性模型

1.2.3 统计机器翻译金字塔

1.3 背景知识介绍

1.3.1 国内外翻译行业现状

1.3.2 云计算与机器翻译

1.3.3 本文的研究背景和意义

1.4 本文主要工作与创新点

1.5 本文的结构安排

第二章 云计算

2.1 云计算概述

2.2 开源项目Hadoop

2.2.1 分布式文件系统

2.2.2 分布式数据处理

2.2.3 分布式数据处理的API

2.3 基于MapReduce的统计机器翻译相关研究

2.4 本章小结

第三章 平行句对质量筛选

3.1 语料筛选的意义

3.2 相关研究工作

3.2.1 平行句对对齐

3.2.2 平行句对筛选

3.3 平行句对质量筛选的方法

3.3.1 基于句对长度比的方法

3.3.2 基于词对齐的方法

3.4 实验结果与分析

3.4.1 实验工具和数据介绍

3.4.2 Baseline结果

3.4.2 句对质量筛选

3.5 本章小结

第四章 领域分类与识别

4.1 统计机器翻译中的领域差异问题

4.2 领域识别方法的相关研究

4.2.1 语言模型困惑度

4.2.2 文本分类

4.3 双语句对的领域分类研究

4.3.1 直译与意译

4.3.2 基于n元组的双语平行句对表示

4.3.3 基于领域显著度的半监督分类方法研究

4.4 领域相关的统计机器翻译方法

4.5 实验结果与分析

4.5.1 领域分类结果

4.5.2 领域识别的翻译结果

4.6 本章小结

第五章 总结与展望

5.1 本文工作总结

5.2 工作展望

参考文献

硕士期间发表的论文

致谢

展开▼

摘要

随着信息技术的不断进步和计算机网络的飞速发展,每天在互联网上传播的信息和知识达到以往数倍。同时,现实领域中也产生了海量的双语数据,这些数据对于统计机器翻译研究无疑是一笔巨大的财富。但是,由于数据来源不同、获取方法粗糙、译员水平不一等问题,导致数据的质量和领域存在巨大差异,这些差异性都会影响到机器译文的质量。此外,受限于计算能力和存储能力的制约,在单机环境下已经很难高效的处理TB级以上的大规模文本语料。
  本文围绕上述几个问题展开研究,尝试分析并解决语料质量和领域差异对统计机器翻译带来的问题。主要工作和创新点包括以下几点:
  1.基于双语句对质量的语料筛选。本文提出了两种语料筛选策略,基于双语句对长度比值方法和基于词对齐信息方法。这两种方法的创新之处是都不需要额外语言学资源如双语词典、句法分析器等作为辅助,不需要人工干预,可以自动挑出质量较差的句对,并可以适用于任何语种对。实验表明,两种方法均有不错的效果,可以有效提高统计机器翻译质量。
  2.双语平行句对的领域自动分类。本文分析了领域差异对统计机器翻译系统的影响。提出了一种基于n元组的半监督领域分类方法,实现了对大规模混合领域双语句对的句级领域分类。使用该分类器识别出待译语句的领域种类,并应用对应领域的翻译系统完成翻译任务。
  3.大规模文本处理的分布式算法实现。本文结合开源系统Hadoop,使用分布式处理算法实现语料筛选和领域分类。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号