首页> 中文学位 >中文维基百科的结构化信息抽取及词语相关度计算
【6h】

中文维基百科的结构化信息抽取及词语相关度计算

代理获取

摘要

为了提高计算机的智能化程度,在自然语言处理的过程中,加入语义知识的理解是非常必要的。随着日益增长的信息处理需求,如何从海量的语料资源中自动地获取丰富的语义知识,以及如何有效地利用这些语义知识来实现对文本语义的理解,已成为一个重要的研究课题。
  维基百科作为一个以开放和用户协作编辑为特点的Web2.0知识系统,具有知识面覆盖度广,结构化程度高,信息更新速度快等优点,其中蕴涵有丰富的语义知识,是目前众多学者进行语义知识抽取所青睐的语料数据资源。然而,维基百科的官方仅提供一些半结构化的基本数据文件的备份,很多有用的结构化信息和数据,并不能直接地获取和使用。
  为此,本文首先从这些半结构化的基本数据中抽取整理出多种结构化信息;接着,对维基百科的知识组织形式进行了抽象架构,实现了一套开放的API接口,减轻了用户从中获取结构化信息的难度;最后,利用这些信息数据,本文提出了一种新的计算词语间语义相关度的算法。因此,本文的主要工作包含以下几个方面:
  第一,结构化信息的抽取。首先从维基百科官方网站下载了所需的备份数据资源;接着,先把备份数据文本中的繁体字全部转换为简体,再从中抽取整理出条目间内链接信息,分类系统,锚文本数据等多种结构化信息;然后,把这些信息全部存储到数据库中,并对重要的字段建立了索引。
  第二,对维基百科知识组织形式的抽象架构。首先分析了维基百科中条目的不同作用,进而把所有的条目分为六种类型;然后,针对每种类型的条目,总结并实现了获取其相应的结构化信息的方法;最终,实现了一套开放的API接口,方便了用户更直观地了解和使用这些结构化信息。
  第三,提出了一种新的计算词语间语义相关度的算法。在对比总结人工语义知识库与维基百科异同点的基础上,借鉴传统算法的优点,结合中文维基百科数据的自身特点,提出了一种新的计算词语间语义相关度的算法,该算法综合利用条目间内链接,锚文本和分类系统三种结构化信息,并通过核函数的思想,融合了分类间的语义知识。在实验部分,本文在不同的数据集上对比了本文算法与其他经典算法的计算结果,最终证明了本文算法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号