云翻译平台下基于海量语料的统计机器翻译方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着信息技术的不断进步和计算机网络的飞速发展，每天在互联网上传播的信息和知识达到以往数倍。同时，现实领域中也产生了海量的双语数据，这些数据对于统计机器翻译研究无疑是一笔巨大的财富。但是，由于数据来源不同、获取方法粗糙、译员水平不一等问题，导致数据的质量和领域存在巨大差异，这些差异性都会影响到机器译文的质量。此外，受限于计算能力和存储能力的制约，在单机环境下已经很难高效的处理TB级以上的大规模文本语料。
　　本文围绕上述几个问题展开研究，尝试分析并解决语料质量和领域差异对统计机器翻译带来的问题。主要工作和创新点包括以下几点:
　　1.基于双语句对质量的语料筛选。本文提出了两种语料筛选策略，基于双语句对长度比值方法和基于词对齐信息方法。这两种方法的创新之处是都不需要额外语言学资源如双语词典、句法分析器等作为辅助，不需要人工干预，可以自动挑出质量较差的句对，并可以适用于任何语种对。实验表明，两种方法均有不错的效果，可以有效提高统计机器翻译质量。
　　2.双语平行句对的领域自动分类。本文分析了领域差异对统计机器翻译系统的影响。提出了一种基于n元组的半监督领域分类方法，实现了对大规模混合领域双语句对的句级领域分类。使用该分类器识别出待译语句的领域种类，并应用对应领域的翻译系统完成翻译任务。
　　3.大规模文本处理的分布式算法实现。本文结合开源系统Hadoop，使用分布式处理算法实现语料筛选和领域分类。

著录项

作者
胡金铭;
展开▼
作者单位

厦门大学;

展开▼
授予单位厦门大学;
学科计算机应用技术
授予学位硕士
导师姓名史晓东;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类机器翻译;数理语言学;
关键词
机器翻译; 语料处理; 领域分类; 云计算;

相似文献

中文文献
外文文献
专利

1. 有限语料汉蒙统计机器翻译调序方法研究 [J] . 陈雷 ,李淼 ,张健 . 中文信息学报 . 2013,第005期
2. 基于句对质量和覆盖度的统计机器翻译训练语料选取 [J] . 姚树杰 ,肖桐 ,朱靖波 . 中文信息学报 . 2011,第002期
3. 语料预处理对蒙古文-汉文统计机器翻译的影响 [J] . 李金廷 ,侯宏旭 ,武静 . 计算机科学 . 2017,第010期
4. 统计机器翻译中双语语料的过滤及词对齐的改进 [J] . 梁华参 ,赵铁军 . 智能计算机与应用 . 2013,第004期
5. 统计机器翻译中双语语料的过滤及词对齐的改进 [J] . 梁华参 ,赵铁军 . 智能计算机与应用 . 2013,第004期
6. 面向统计机器翻译的训练语料质量评价方法研究及应用 [C] . 路琦 ,张傲 ,刘金花 . 第六届全国青年计算语言学会议 . 2012
7. 统计机器翻译中语料选择方法研究 [A] . 李函章 . 2010

云翻译平台下基于海量语料的统计机器翻译方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅