首页> 中文学位 >新行环境下双语词对齐与语言模型研究与应用
【6h】

新行环境下双语词对齐与语言模型研究与应用

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1绪论

1.1 研究背景及意义

1.2 统计机器翻译

1.3 国内外研究现状

1.4 论文的组织结构

2统计机器翻译并行框架方案设计

2.1并行方案论证与设计

2.2并行编程架构Hadoop

2.3 本章小结

3并行环境下统计词对齐研究

3.1 传统词对齐研究

3.2并行词对齐研究

3.3实验

3.4 本章小结

4并行环境下语言模型研究

4.1传统语言模型研究

4.2并行语言模型研究

4.3实验

4.4 本章小结

5并行环境下面向旅游交通领域的口语翻译系统

5.1系统架构

5.2系统实现

5.3系统测试与分析

5.4本章小结

6 结论与展望

6.1 论文总结

6.2 论文展望

致谢

参考文献

攻读硕士学位期间发表的论文及参加的科研项目

展开▼

摘要

互联网相关技术的发展,使得获取人规模双语平行数据成为可能,从而大大地推动了基于统计方法的机器翻译的研究和应用。然而.大规模数据带来的计算时间耗费和内存占用大的问题对统计机器翻译带来了臣大的阻碍。本课题以统计机器翻译时空效率为研究对象.采用并行计算和分布式计算方法,分别提出了基于并行计算的统计词对齐和统计语言模型的策略.并应用于统计机器翻译系统中.以降低统计词对齐所需衙时间和语商模型所需内存.
  本课题首先介绍了传统的统计词对齐和统计语言模型原理,然后对其进行了并行化论证.最后详细介绍了并行词对齐和语言模型的实现步骤.以传统词对齐和语言模型训练作为基线方法.采用Moses作为统计机器翻译实验系统.分别在NIST FBIS中英27万和NIST新闻中英340万数据集上使用采用不同的节点配置进行了词对齐实验.实验结果表明,相较于单节点单线程的传统词对齐方法.并行词对齐方法在翻译性能不显著降低的前提下.训练时间均显著减少.且并行词对齐的时间消耗会随着并行计算节点个数的增加呈近似线性减少趋势:同时.在以上两个数据集上使用单计算节点和四个计算节点进行了并行语言模型实验。实验结果表明,相较于基线语言模型方法.本课题所采用的并行语言模型方法在翻译性能和困惑度无显著下降的前提下,将内存使用控制在合理范围之内。以上两组实验验证了本课题所提出的并行化方案的有效性和可行性。
  最后,本课题利用并行词对齐结果搭建了面向旅游交通领域的口语翻译系统,并对系统性能进行了人工评测,评测结果表明,对于限定领域的旅游交通数据,本系统翻译性能优于其它三家主流翻译系统,而在通用领域,本课题所开发的系统的翻译性能与其它系统无显著差异,满足设计要求和基本应用目标。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号