首页> 中文学位 >LOD集成数据中不一致性问题的研究
【6h】

LOD集成数据中不一致性问题的研究

代理获取

目录

声明

摘要

缩略词表

表目录

图目录

第一章 绪论

1.1 研究背景

1.1.1 本体描述语言RDF(S),OWL

1.1.2 RDF查询语言SPARQL

1.1.3 开放链接数据

1.2 数据质量及链接数据中的不一致问题

1.3 研究内容

1.4 本文结构安排

第二章 相关工作

2.1 链接数据中主要的不一致问题

2.1.1 语法上的错误

2.1.2 实例层数据与模式层的定义冲突

2.1.3 数据冗余

2.1.4 数据歧义

2.1.5 不可满足概念

2.2 不一致的检测

2.3 类的不相交公理的学习

2.4 本章小结

第三章 对DBpedia和Zhishi.me质量的分析

3.1 数据集介绍

3.2 不一致问题及自动化检测方法

3.2.1 同一属性由不同IRI来表示

3.2.2 定义反的继承关系

3.2.3 类与其实例重名

3.2.4 skos:broader和skos:narrower的错用

3.2.5 对象属性以及数据类型属性的错用

3.3 实验结果与分析

3.3.1 检测不同IRI代表的相同属性

3.3.2 检测定义反的包含关系

3.4 本章小结

第四章 基于不相交公理学习的不一致检测方法

4.1 两种现有不相交公理学习方法评估

4.1.1 计算相关系数

4.1.2 关联规则挖掘

4.1.3 实验及结果分析

4.2 现有不相交公理学习算法的改进

4.3 不相交公理在不一致检测中的应用

4.4 本章小结

第五章 总结与展望

5.1 本文工作总结

5.2 未来工作展望

致谢

参考文献

攻读硕士学位期间科研成果

展开▼

摘要

在Linked Open Data项目的推动下,链接数据规模越来越大,数据集之间的链接程度也越来越高。不同的组织或者个人均可发布自己的链接数据,而实际上知识库的构建是一个容易出错的过程。另外,链接数据集处于不断地动态变化中,新的变化往往不能及时反映到所有相关的链接数据集中,因此会导致错误的出现。这些错误不仅会降低链接数据集的质量,还影响建立在链接数据集之上的Web应用的有效性。本文主要研究链接数据集中的不一致问题,包括不同IRI代表同一属性、属性的错用、以及定义反的包含关系。相对来说,逻辑上的不一致检测难度较大,往往需要向链接数据集的模式层添加新的知识。本文讨论的是使用计算相关系数和关联规则挖掘的方法来自动获取不相交公理。
  本文的主要贡献有以下四个方面:
  1)对DBpedia和Zhishi.me两个大规模的链接数据集分别作了较为深入的分析,找出这两个数据集中的不一致问题。对于无法通过SPARQL查询来检测的不一致问题,本文提出了自动化的检测方法,具体包括:
  a)提出一种方法来检测代表同一属性的IRI。
  b)借助于中文维基百科,提出一种方法来判断类之间上下位关系的定义是否是反的。
  c)检测属性的错用,包括Zhishi.me中“skos:broader”和“skos:narrower”的错用,以及DBpedia和Zhishi.me中对象属性和数据类型属性的错用。
  d)将提出的检测方法应用于DBpedia和Zhishi.me,以验证方法的有效性。
  2)评估两种现有的不相交公理学习方法在DBpedia和zhishi.me上的效果,即计算相关系数的方法和关联规则挖掘方法,对两种方法进行分析比较。
  3)对关联规则挖掘方法得到的实验结果进行了较为细致的分析,讨论该方法存在的主要问题。针对这些问题,本文对该不相交公理学习方法进行了改进,并分析改进后的效果。
  4)将学习得到的不相交公理添加到链接数据集,并检测不一致。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号