首页> 中文学位 >面向数据开放与共享的数据组织划分研究与实现
【6h】

面向数据开放与共享的数据组织划分研究与实现

代理获取

目录

第一个书签之前

展开▼

摘要

随着信息技术的飞速发展,全球数据资源正以前所未有的速度不断地增长和积累,大数据以其具有的巨大潜在价值,成为政府、学术界和企业界共同关注的焦点。数据开放与共享是大数据充分发挥其作用的基础,已得到各国政府的广泛认同和积极响应。在政府政策的推动下,许多公司也已经开始将高质量的结构化数据集通过数据集市等平台进行开放。随着数据开放规模的日趋增大,如何对开放数据进行合理组织,帮助行业用户高效地获取满足其查询分析目标的数据成为迫切需要解决的关键问题。 传统数据组织方式如关系模型,多维数据模型等其逻辑模型的设计由应用驱动,大都建立在需求已知的条件下,而在面向大数据的数据开放与共享应用中,数据的使用者和数据使用任务均存在较大的不可预知性和可变性。因此,采用传统的数据组织方式并不可行。面对来自不同来源的数据集,数据开放平台需要为用户提供一种统一的数据组织形式来对多数据源进行管理同时方便数据使用者来了解数据的结构,提升开放数据的可用性。另一方面,现有的数据开放平台在数据集开放时大多仅提供内容的简单样例或统计信息,使用者难以提前得到数据内容的具体信息,而用户往往仅需要数据集中小部分的数据即可满足需要,因此考虑如何在用户需求不确定的情况下,对数据集进行预先的合理划分,快速地为用户选择出满足其使用需求的子集,提升开放数据使用的高效性十分必要。针对上述问题,本文主要贡献如下: 1)本文提出了一种基于本体的数据组织方法,为多源开放数据建立统一的领域本体模型并根据建立的领域本体模型对数据的逻辑结构和内容进行重新组织。由于本体模型能够实现与现实世界的直接对应,因此本文数据组织方法能够更加友好地呼应可变的上层应用需求。在本体创建过程中,本文提出了基于规则的方法从原始关系模型中自动提取出本体元素,然后进行交互式完善,很大程度上减轻了构建本体的人工负担,同时天然地保留了具体数据之间的关联关系。 2)本文提出了需求不确定下的数据划分与划分筛选方法。本文首先建立了数据出现的广度关联特征和深度频次特征与用户分析需求的关联性。在此基础上,提出相应的数据划分模型和划分方法。然后提出了在本体数据组织以及数据划分下,进行数据集选择的相应框架。用户首先基于本体模型提出类SQL的查询需求,通过解析本体模型与数据源的映射将查询需求转化为面向底层数据的SQL查询,再从中提取出所需数据划分的条件,为用户选取能满足其需求的最小数据划分。 3)本文最后使用某三甲医院和社区医院的真实数据集对本文所提方法进行了实验与分析,实验结果说明了本文方法的有效性。

著录项

  • 作者

    郝茜;

  • 作者单位

    东华大学;

  • 授予单位 东华大学;
  • 学科 软件工程
  • 授予学位 硕士
  • 导师姓名 乐嘉锦;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 中国法律;
  • 关键词

    数据开放; 数据组织;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号