首页> 中文学位 >基于跨语言映射的汉语语义知识自动获取方法的研究
【6h】

基于跨语言映射的汉语语义知识自动获取方法的研究

代理获取

目录

封面

中文摘要

英文摘要

目录

第1章 绪 论

1.1 课题背景及研究的目的和意义

1.2 国内外研究现状

1.3 本文的主要研究内容

1.4 本文的组织结构

第2章 基于跨语言映射的汉语语义知识库构建方法

2.1 引言

2.2 语义知识库Freebase及其电影领域子知识库

2.3 双语平行语料的获取

2.4 基于跨语言映射的知识库构建

2.5 实验

2.6 本章小结

第3章 基于音译特征的知识库未登录词翻译

3.1 引言

3.2 音译模型

3.3 基于音译特征的知识库未登录词翻译

3.4 实验

3.5 本章小结

第4章 基于主题模型的特定领域知识库翻译

4.1 引言

4.2 主题模型LDA

4.3 基于主题模型的跨语言映射汉语知识图谱构建

4.4 实验

4.5 本章小结

结论

参考文献

攻读硕士学位期间发表的学术论文及其他成果

声明

致谢

展开▼

摘要

语义知识库是一种结构化数据库,其中存储的是实体及实体间的相互关系,是当前学术界和企业界的研究热点,其在语义搜索、机器问答等实际的应用中有非常重要的意义。然而现语义知识库大多以英文表示,汉语语义知识库十分缺乏且规模较小,因此构建汉语语义知识库,成为汉语自然语言处理领域亟待解决的问题。
  机器翻译技术是一种将句子从源语言自动翻译为目标语言的技术方法,一般使用于对自然语句的自动翻译。本文采用机器翻译技术翻译已有知识库从而构建汉语知识图谱。不同于针对句子级别的机器翻译,在语义知识库翻译中待翻译的为知识库中的实体标签。本文的具体研究内容为:
  (1)为了解决知识库中特定词汇或短语较多及双语平行语料缺少的问题,本文首先利用知识库中实体的源语言标签挖掘互联网中的相关双语语料,构建训练数据。此外考虑到百度百科是较大的汉语知识库,本文利用百科双语词条对知识库翻译模型就行补充,该方法有效提高了知识库翻译的性能。
  (2)知识库一般采用层状结构,如特定领域知识库一般分为两层(类别,实体),每个类别的实体,均有特定的属性。本文利用知识库的层状结构提高知识库翻译的性能,如本文使用知识库中实体的类别和属性信息解决知识库中人名类别实体的未登录词问题。对知识库中的实体根据其是否属于人名类别,及考虑其性别特征,加入音译模型来翻译此类未登录词。实验表明该方法能有效解决人名实体未登录的问题,从而提高知识库翻译的性能。
  (3)考虑到知识库翻译任务中待翻译的内容为实体的源语言标签,而实体标签较短,因此缺乏上下文信息,不能有效的将实体标签翻译到目标领域。因此本文利用知识库的图形结构,对实体标签进行扩展。为了提高特定领域知识库翻译的准确性,本文构建基于主题模型的知识库翻译系统,对实体的主题信息利用实体标签扩展训练得到其主题分布。本文使用主题模型为隐含狄利克雷分布模型。本方法有效提取了实体的主题信息,并提高了知识库翻译的性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号