首页> 中文学位 >数据库表关系解析以及可视化系统的设计与实现
【6h】

数据库表关系解析以及可视化系统的设计与实现

代理获取

目录

第一个书签之前

展开▼

摘要

eBay公司为了管理业务数据,合并了企业网络中分布的数据,从而提供全面的业务分析服务以及支持决策的信息.然而伴随着日益复杂的业务分析需求,数据仓库中相应的需要构建的数据表也在极速增加.同时,为了反映数据仓库中历史数据的发展历程以及未来趋势的特性,必须存储所有历史数据表,这进一步增加了数据量.大量的数据存储占用了PB级的空间,而复杂的数据表查询消耗了大量的CPU资源.因此如何能掌握数据库中不同表之间的关系,根据不同数据流特征掌握数据表的使用状况,从而高效地帮助系统管理人员清理系统的空间,降低数据处理成本,减少数据的冗余成为了一个难题. 市面上流行的数据库管理工具基本都可以提供数据库表关系的可视化,然而它们的关系最多只能提供到表层级.为了更好地展示表之间的联系以及满足自身业务需求,eBay将这种数据库中的表关联扩展到了字段(Column)粒度上.根据不同字段之间的联系,管理人员可以通过垂直切分数据表来优化其内部结构;井且,管理人员还可以对不同字段进行统计分析,从而获取数据表中某个字段里元组的使用状况,进一步区分其中的冷门以及热门数据. 针对上述间题,本文主要描述了数据库表关系可视化系统(以下简称为Lineage系统)的设计与实现.本文基于该系统对以下几个方面进行了研究: (1)提出了数据库表关系的定义; (2)实现Druid SQL Parser接口,完成对数据表的解析; (3)基于Apache Spark实现了数据处理流模块; (4)设计井实现了基于B/S架构的表关系可视化模块; 目前,本文提出的数据库表关系可视化系统Lineage己经运用到实际之中.eBay中国数据仓库每天约生成30G的数据查询日志,该系统提供的数据分析结果能有效反应数据表之间的关系以及查询的调度计划等相关信息,且高效的帮助数据仓库管理人员掌握数据表的使用情况,从而对系统存储空间进行管理.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号