首页> 中文学位 >可比语料中双语多词术语互译对抽取方法研究
【6h】

可比语料中双语多词术语互译对抽取方法研究

代理获取

目录

声明

摘要

1 绪论

1.1 研究背景

1.1.1 研究来源

1.1.2 语料简介

1.1.3 术语简介

1.2 双语术语抽取意义

1.3 双语术语抽取现状

1.4 本文的工作

1.5 本文的组织

2 基于可比较语料库抽取多词术语互译对

2.1 课题描述

2.2 多词术语互译对抽取系统框架

2.3 问题分析

2.4 相关模型介绍

2.4.1 统计机器翻译模型

2.4.2 判别学习算法

3 多词术语抽取

3.1 单语术语抽取相关工作

3.2 中文多词术语抽取

3.2.1 中文多术语抽取系统流程

3.2.2 中文多词术语抽取方法

3.3 英文多词术语抽取

3.3.1 英文多词术语抽取流程

3.3.2 英文多词术语抽取方法

3.4 实验设计

3.4.1 语料及评价标准

3.4.2 实验结果

4 多词术语互译对计算模型

4.1 特征选取

4.1.1 翻译特征

4.1.2 词的同现频率特征

4.1.3 词的长度特征

4.1.4 英中匹配特征

4.1.5 中英匹配特征

4.2 互译对计算模型

5 基于判别学习算法的多特征融合

5.1 多词术语互译对判别学习定义

5.2 基于判别学习算法的特征融合

5.2.1 损失函数

5.2.2 线性搜索权重区间

5.2.3 特征选择依据

5.2.4 权重计算方法

5.3 阈值确定

6 实验与评估

6.1 实验数据及评价标准

6.2 各个特征的作用

6.3 特征融合

6.3.1 阈值估计

6.3.2 实验对比

结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

展开▼

摘要

双语术语互译对抽取是自然语言处理领域中一个重要的研究课题。作为基础资源,双语术语互译对被广泛应用于机器翻译、信息抽取、双语术语词典编撰以及跨语言信息检索等领域。早期的术语互译对抽取工作主要在平行语料上开展,存在语料规模不足等问题。与通过人工翻译或者法规文件等获得的平行语料库相比,可比较语料库具有代价低、来源广等特点。目前,基于可比较语料的研究越来越多,从可比较语料库中挖掘词级别的信息已成为研究的热点。
  本文在可比较语料的基础上进行双语多词术语互译对的抽取工作。首先从可比较语料库中分别抽取中文多词术语和英文多词术语,然后通过计算中英多词术语之间多个特征值得到术语匹配对,最后使用阈值限定法过滤正确的术语对。其中,在计算术语匹配对时,本文使用最小化样本风险算法来调节特征权重。
  本文设计和实现了一个多词术语互译对抽取系统,其中,中英可比语料库作为系统的输入,中英多词术语互译对集合作为系统的输出。系统主要分为3个模块:(1)多词术语抽取模块;(2)基于多特征的互译对相似度计算模块;(3)多特征融合和过滤模块。多词术语抽取模块分别从对应的单语语料库中抽取中文多词术语和英文多词术语。互译对相似度计算模块,使用翻译模型特征、词频同现特征、中英匹配特征、英中匹配特征和词长度特征计算中英多词术语之间的匹配度。多特征融合和过滤模块,使用最小样本风险算法(minimumsamplerisk,MSR)调整各个特征的权重,然后将各个特征值加权求和,结果作为互译对最终的相似度。每个中文多词术语和多个英文多词术语比较,构建多个候选中英多词术语互译对,选择相似度最高且大于阈值的互译对作为正确结果。
  本文的主要贡献:(1)抽取多词术语时,对现有算法进行改进,并依据语言学知识制定了若干过滤规则,提高了术语的抽取效果;(2)匹配互译对时,将多特征线性融合模型引入到多词术语互译对的抽取工作中,选择了适当的特征,并使用判别学习算法调节特征权重,最后实验验证了本文方法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号