LOD集成数据中不一致性问题的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在Linked Open Data项目的推动下，链接数据规模越来越大，数据集之间的链接程度也越来越高。不同的组织或者个人均可发布自己的链接数据，而实际上知识库的构建是一个容易出错的过程。另外，链接数据集处于不断地动态变化中，新的变化往往不能及时反映到所有相关的链接数据集中，因此会导致错误的出现。这些错误不仅会降低链接数据集的质量，还影响建立在链接数据集之上的Web应用的有效性。本文主要研究链接数据集中的不一致问题，包括不同IRI代表同一属性、属性的错用、以及定义反的包含关系。相对来说，逻辑上的不一致检测难度较大，往往需要向链接数据集的模式层添加新的知识。本文讨论的是使用计算相关系数和关联规则挖掘的方法来自动获取不相交公理。
　　本文的主要贡献有以下四个方面:
　　1)对DBpedia和Zhishi.me两个大规模的链接数据集分别作了较为深入的分析，找出这两个数据集中的不一致问题。对于无法通过SPARQL查询来检测的不一致问题，本文提出了自动化的检测方法，具体包括:
　　a)提出一种方法来检测代表同一属性的IRI。
　　b)借助于中文维基百科，提出一种方法来判断类之间上下位关系的定义是否是反的。
　　c)检测属性的错用，包括Zhishi.me中“skos:broader”和“skos:narrower”的错用，以及DBpedia和Zhishi.me中对象属性和数据类型属性的错用。
　　d)将提出的检测方法应用于DBpedia和Zhishi.me，以验证方法的有效性。
　　2)评估两种现有的不相交公理学习方法在DBpedia和zhishi.me上的效果，即计算相关系数的方法和关联规则挖掘方法，对两种方法进行分析比较。
　　3)对关联规则挖掘方法得到的实验结果进行了较为细致的分析，讨论该方法存在的主要问题。针对这些问题，本文对该不相交公理学习方法进行了改进，并分析改进后的效果。
　　4)将学习得到的不相交公理添加到链接数据集，并检测不一致。

著录项

作者
马艳芳;
展开▼
作者单位

东南大学;

展开▼
授予单位东南大学;
学科计算机技术
授予学位硕士
导师姓名漆桂林;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
链接数据集; 关联规则; 数据挖掘; SPARQL查询; 不一致检测;

相似文献

中文文献
外文文献
专利

1. 数据集成中不一致性数据相似性比较的加权算法 [J] . 张艳秋 ,徐六通 ,王柏 . 计算机科学 . 2003,第008期
2. 数据库集成系统中数据语义和属性不一致问题的解决方法 [J] . 王晓军 . 南京邮电学院学报 . 1998,第003期
3. 硬盘播出中的数据不一致性问题探讨 [J] . 曹娣华 . 卫星电视与宽带多媒体 . 2020,第24期
4. 基于Map X的空间数据不一致性问题处理 [J] . 张广群 ,王保平 ,汪杭军 . 浙江农林大学学报 . 2009,第004期
5. 实时协同位图编辑系统中不一致性问题研究 [J] . 朱桂华 . 计算机工程与应用 . 2003,第013期
6. 在多个ES协作系统中不一致性问题的处理 [C] . 刘大有 . 第一届中国人工智能联合学术会 . 1990
7. 数据微观不一致性问题的研究 [A] . 孙纪舟 . 2019

LOD集成数据中不一致性问题的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅