首页> 中文学位 >基于可比语料库与循环神经网络的双语词典抽取算法研究
【6h】

基于可比语料库与循环神经网络的双语词典抽取算法研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.3 本文的主要研究内容

1.4 论文的组织结构

第二章 相关研究综述

2.1 可比语料库与双语词典抽取

2.1.1 可比语料库

2.1.2 双语词典抽取

2.2 人工神经网络

2.2.1 人工神经网络基本原理

2.2.2 循环神经网络

2.3 典型相关分析

2.4 词向量

2.5 本章小结

第三章 基于循环神经网络的词典抽取模型

3.1 基本抽取模型

3.1.1 基于上下文向量的抽取模型

3.1.2 基于词向量的抽取模型

3.2 基于循环神经网络的抽取模型

3.2.1 词典抽取框架

3.2.2 词向量的构建

3.2.3 模型结构

3.2.4 词典抽取性能评价方法

3.3 实验结果与分析

3.3.1 实验数据与设计

3.3.2 实验结果对比与分析

3.4 本章小结

第四章 融合双语潜在语义的词典抽取模型

4.1 引言

4.2 融合双语潜在语义的双语词典抽取模型

4.3 基于典型相关分析的跨语言空间转换算法

4.4 实验结果与分析

4.4.1 实验数据集

4.4.2 实验结果对比与分析

4.5 本章小结

第五章 总结与展望

5.1 本文总结

5.2 研究展望

参考文献

致谢

展开▼

摘要

随着互联网的高速发展和全球化进程的不断加快,跨语言自然语言处理在人们的工作和生活中发挥着越来越重要的作用。双语词典作为跨语言自然语言处理领域的一项基础性资源,成为学者们的研究重点。目前关于双语词典抽取的研究主要集中在两个方面,一个是基于平行语料库的词典抽取,另一个是基于可比语料库的词典抽取。因平行语料库资源有限、构建困难等不足,基于可比语料库的研究更具现实意义,现阶段基于可比语料库的双语词典抽取主要有基于上下文信息的抽取模型和基于词向量的抽取模型两大类。然而,这些研究大多集中在相对比较容易获取的双语术语或特定领域的实体等价对的抽取,并且即使在语料规模足够大的情况下,其抽取性能也不够理想。针对这些不足,本文主要进行了以下两个方面的工作,以提升基于可比语料库的双语词典抽取的性能。
  第一,提出了一种基于循环神经网络的双语词典抽取模型。近年来,深度神经网络成为了人工智能领域的一个研究热点,其在自然语言处理领域的许多任务中都表现出了出色的成绩,同时为了充分利用互联网上的海量语料,进一步提升双语词典的抽取性能,本文提出了一种基于循环神经网络的双语词典抽取模型,该模型采用预先训练好的互译词对的词向量作为输入和输出,以此训练循环神经网络,并通过词向量相似度的计算获取候选词。对比经典的词典抽取模型,实验表明,本文提出的模型在抽取性能上有着显著的提升,尤其是当语料库规模较大时,该模型具有更好的抽取效果,也侧面反映了循环神经网络在海量数据建模上具有独特的优势。同时,也充分体现了循环神经网络在本文所研究的问题上所特有的优势。
  第二,基于典型相关分析理论,提出了一种融合双语潜在语义的双语词典抽取改进模型。一般来说,互译的词语对总是出现在相似主题的文档对中,即其所在的文档在语义层面具有较强的相关性,并且这个特点具有普遍性和语言无关性。因此,本文利用典型相关分析理论,对语料库中的两种语言空间进行重新整合,使二者呈现更强的语义相关性,在此基础上再利用本文提出的抽取模型进行双语词典的抽取工作,以进一步提升抽取性能。实验表明,融合了双语潜在语义的改进模型与基于循环神经网络的抽取模型相比,抽取性能在一定程度上有了进一步的提升。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号