首页> 中文学位 >从可比语料抽取等价实体翻译对的研究
【6h】

从可比语料抽取等价实体翻译对的研究

代理获取

目录

封面

中文摘要

英文摘要

目录

第1章 绪 论

1.1 课题背景及研究意义

1.2 国内外研究现状

1.3 本文的主要内容和组织结构

第2章 用于抽取实体对的种子词典自适应

2.1引言

2.2 Baseline系统的实现

2.3 种子词典的自适应方法

2.4 实验结果及分析

2.5本章小结

第3章 针对实体对抽取的翻译信息压缩方法

3.1 引言

3.2 翻译信息的压缩方法

3.3 实验结果及分析

3.4 本章小结

第4章 扩充种子词典覆盖率的研究

4.1 引言

4.2 种子词典扩充方法

4.3 实验结果及分析

4.4本章小结

结论

参考文献

攻读硕士学位期间发表的论文及其它成果

声明

致谢

附录

附录一 500个测试人名标准翻译

附录二 300个测试地名标准翻译

展开▼

摘要

随着信息时代的到来,跨语言自然语言处理技术在人们的工作和生活中发挥着越来越重要的作用。其中,实体翻译技术在跨语言自然语言处理任务中有着至关重要的地位。
  本文主要研究从可比语料中抽取等价实体翻译对。在主流的context-based方法中,种子词典的质量直接影响该方法的最终效果,却鲜有研究者关注。本文根据种子词典存在的三个主要问题入手,分别提出了相应的解决方案来提高实体对抽取的效果。
  本文首先针对种子词典译项词粒度和语料粒度不一致的问题,提出了使用自分词方法来使词典的译项词粒度可以适应语料的粒度。同时提出了基于译项词长度的权重分配方法和基于词频分布相似性的权重分配方法,以此增加种子词典的自适应性,提升对齐效果。其次,本文针对使用双语种子词典进行翻译时存在的词义分散问题,提出了一个高效的翻译信息压缩方法,该方法使用分布式词向量来挖掘单词之间的语义信息,同时通过利用双语词典本身的可靠信息来决定单词之间的语义关联,然后通过层次聚类模型实现了翻译信息的压缩。该方法做到了语言无关而且不需要额外的外部资源,在实体抽取任务上适用于所有类型的命名实体和未登录词,具有极强的可扩展性。最后,本文针对种子词典覆盖率不够的问题,使用高关联度词对种子词典没有覆盖到的词进行替代,由此来扩充种子词典的覆盖率。
  实验证明,本文提出的方法能够很好的改善种子词典的质量,使得从可比语料中抽取等价实体翻译对任务的MRR值最终高出 Baseline系统约7个百分点,有比较显著的提升。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号