首页> 中文学位 >面向奥运新闻的汉日机器翻译系统研究与实现
【6h】

面向奥运新闻的汉日机器翻译系统研究与实现

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1自然语言处理的研究

1.2自然语言理解的相关理论

1.3机器翻译的发展及其技术

1.3.1机器翻译的发展及其现状

1.3.2机器翻译的方法

1.4面向奥运的汉日机器翻译系统的研究

1.4.1汉日机器翻译的研究所采用的方法

1.4.2汉日机器翻译的研究内容

1.5本文的内容安排

第二章汉日机器翻译系统设计

2.1汉日机器翻译系统设计目标

2.2汉日机器翻译系统分析

2.2.1几个典型的机器翻译系统

2.2.2汉日双语的差别

2.2.3翻译系统方案选择

2.3汉日机器翻译系统研究整体框架

2.3.1汉日机器翻译系统引擎

2.3.2汉日双语资源建设

2.3.3翻译系统辅助工具集

第三章汉日双语资源建设

3.1汉日双语电子词典

3.1.1汉日双语辞典的定义

3.1.2中文词条收录原则

3.1.3词条的格式

3.1.4词条填写规范

3.2汉日双语句对齐语料库

3.2.1汉日双语语料的来源

3.2.2汉日双语句对齐规范

3.3汉日双语词对齐语料库

3.3.1中文词性标注规范

3.3.2日文词性标注规范

3.3.3汉日双语词对齐规范

3.3.4汉日双语词对齐语料库规范

3.3.5词对齐示例

3.4汉日双语组块对齐语料库

3.4.1 Chunk标注集

3.4.2汉语Chunk结构

3.4.3汉日双语Chunk库基本规范

3.4.4汉日双语Chunk对齐库构造规范

3.4.5双语Chunk示例

3.5汉日双语模板对齐语料库

3.5.1模板格式规范

3.5.2模板生成规范

3.5.3汉日双语模板对齐库规范

3.5.4模板示例

3.6语料库建设辅助工具集

第四章汉日双语句对齐与词对齐

4.1汉日双语句对齐研究

4.1.1句子对齐的方法

4.1.2汉日双语句子对齐的方法

4.1.3句子对齐模型

4.1.4评价函数

4.1.5算法描述

4.1.6实验结果

4.1.7句对齐结果的人工校对

4.2汉日双语词对齐研究

4.2.1双语词对齐的相关研究

4.2.2汉日双语词对齐技术

4.2.3汉日词对齐算法设计

4.2.4实验结果

4.2.5词对齐结果的人工校对

第五章Chunk分析及双语Chunk对齐

5.1 Chunk分析的相关研究

5.1.1 Chunk的研究方法

5.1.2汉日机器翻译中Chunk研究的方法

5.2 EBMT翻译中Chunk研究的相关问题

5.2.1 Chunk的颗粒度问题

5.2.2对Chunk的结构表示问题

5.2.3汉日双语Chunk的对齐问题

5.2.4汉语Chunk的多译问题

5.3汉语Chunk分析器

5.3.1 Chunk的定义

5.3.2 Chunk的标注集与Chunk结构

5.3.3规则描述

5.3.4规则文法及规则集

5.3.5汉语Chunk分析算法描述

5.3.6汉语Chunk分析算法示例

5.3.7实验结果

5.4双语Chunk自动对齐子系统结构

5.5日语Chunk自动抽取

5.5.1日语Chunk的格式

5.5.2日文Chunk自动获取算法

5.6汉日双语Chunk对齐

5.6.1双语Chunk对齐中的问题

5.6.2双语Chunk对齐算法描述

5.6.3实验结果

5.7双语Chunk语料的人工校对

第六章模板获取与双语模板对齐

6.1双语模板对齐的相关研究

6.1.1双语模板研究的方法

6.1.2模板抽取的相关问题

6.2模板的定义

6.3双语模板自动对齐子系统结构

6.4模板聚类处理

6.4.1 tag相似函数

6.4.2 tag序相似函数

6.4.3语义相似函数

6.4.4模板相似度

6.5实验结果

6.6双语模板语料的人工校对

第七章汉日机器翻译引擎技术

7.1 WBMT翻译引擎

7.1.1基于实例的机器翻译概述

7.1.2 WBMT的总体设计

7.1.3 WBMT的资源与支持模块

7.1.4相似句匹配检索

7.1.5实例调整

7.2模板层翻译引擎技术

7.2.1基于模板的机器翻译相关技术

7.2.2模板层翻译概述

7.2.3翻译模板结构的设计

7.2.4模板层翻译子系统

7.2.5算法设计

第八章汉日机器翻译系统评测

8.1机器翻译的评测方法

8.1.1人工评测

8.1.2自动评测

8.2汉日机器翻译系统的评测

8.3评测标准

8.4专家评测结果

8.5测试结果分析

第九章结论

9.1本文所做的工作

9.2今后的研究工作

9.3关于面向机器翻译的知识体系构建的思考

9.3.1我们需要怎样的知识描述

9.3.2 WordNet和HowNet

参考文献

致谢

攻读博士学位期间发表的论文

攻读博士学位期间科研获奖及出版著作

附录A测试源文本及其机器翻译结果

展开▼

摘要

随着计算机技术、网络技术的发展、信息时代的到来,高性能的机器翻译的研究具有理论意义和极大的应用前景,已经成为当前国际上激烈竞争的研究领域之一。尤其是随着北京2008奥运会的临近,对多语种、多层次的机器翻译的需求越来越迫切。“面向奥运新闻的汉日机器翻译系统”是东北大学自然语言处理实验室和FUJI-XEROX公司未来技术研究所的合作项目,是面向特定领域的真实文本翻译系统。 本文以“面向奥运新闻的汉日机器翻译系统”为线索,研究了汉日双语资源建设以及一种基于实例的机器翻译系统实现的相关问题。 首先本文讨论了机器翻译的相关方法,探讨了汉日双语的语言差别,并在此基础上论证了汉日机器翻译的方法和系统结构。 本文介绍了汉日双语资源建设问题,讨论了包括汉日双语电子词典、双语句对齐语料库、双语词对齐语料库、双语Chunk对齐库、双语翻译模板库在内的百万级的汉日双语语料库的结构、语料库内容、语料库标注规范等相关问题,讨论了语料不同层次上的对齐技术。 本文提出了一种结构化Chunk的概念,并介绍了基于结构化Chunk的文本局部分析方法,以及在此基础上的双语模板抽取、模板对齐的技术。本方法对含有嵌套结构的较大粒度的Chunk进行分析、识别处理,比如,可以抽出较长的带有中心词标注的名词短语,提高了Chunk分析的覆盖度。同时,作为局部模板分析,增加了模板翻译中模板的匹配率。 本文也介绍了一种以Chunk结构为基础的翻译模板构造,讨论了基于Chunk分析的双语模板抽取、模板对齐的技术。 本文最后介绍了汉日机器翻译系统的引擎技术,讨论了一个以实例模板翻译为主,结合规则分析技术和统计分析技术的翻译方法,讨论了多引擎、多层次的汉日机器翻译系统的实现技术。 本系统已经经过汉日专家的机器翻译评测,翻译准确度和翻译流畅度均达到80%以上,通过了日本FUJI-XEROX公司验收。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号