首页> 中文学位 >基于元数据分布式查询与优化方法的应用研究
【6h】

基于元数据分布式查询与优化方法的应用研究

代理获取

目录

摘要

摘要

第1章 绪论

1.1 课题研究背景

1.2 国内外研究现状

1.2.1 分布式数据的查询研究

1.2.2 分布式查询系统研究

1.2.3 分布式查询优化的研究

1.3 论文研究的目的与意义

1.4 论文研究的主要内容

1.5 论文的结构组织

第2章 元数据及相关技术

2.1 元数据

2.1.1 元数据作用

2.1.2 元数据类型对比

2.1.3 元数据应用于分布式的意义

2.2 相关技术

2.2.1 Qpid简介

2.2.2 LEMON简介

2.2.3 Hadoop简介

2.2.4 Pig简介

2.3 本章小结

第3章 分布式数据查询方法

3.1 分布式查询概念

3.2 Qpid在系统中的应用

3.3 元数据设计

3.4 语法解析

3.4.1 查询语法解析

3.4.2 语法树拆分

3.5 小数据查询方法

3.6 大数据查询方法

3.7 本章小结

第4章 分布式数据查询优化

4.1 优化原理

4.1.1 小数据优化原理

4.1.2 大数据优化原理

4.2 优化策略

4.2.1 小数据的优化

4.2.2 大数据的优化

4.3 测试

4.3.1 测试环境

4.3.2 小数据测试

4.3.3 大数据测试

4.4 本章小结

第5章 总结和展望

5.1 总结

5.2 展望

参考文献

攻读硕士学位期间发表的学术论文

致谢

展开▼

摘要

随着数据和业务的复杂化,查询满足条件的数据也会越来越复杂,当向分布式数据源查询信息时,编程人员需要了解各种数据的存储位置,存储方式和存储结构,需要调用很多接口来获取相关数据。这通常需要花费大量的编程精力,并要求编程人员对数据接口具有较高的熟悉程度。如果能够向程序员提供统一的数据编程接口,屏蔽后端存取细节,将大大地提高程序员的编程效率。
  本课题研究了一种基于元数据的分布式查询方法,运用元数据定义和管理各数据源关键信息的虚拟表。然后针对数据量级的不同,设计了小数据和大数据这两种不同的查询以及优化方案。在小数据查询方面,利用虚拟表、语法分析树和内存数据库实现小数据查询,通过复制、移动和分割虚拟SQL查询语法树分支进行优化。在大数据查询方面,运用Pig、Hadoop、python来实现大数据查询;通过优化Pig代码,使用多进程处理HDFS的小文件合并及文件上传下载,对高频业务建立索引等来实现大数据的优化。
  利用元数据信息构建虚拟表,实现对分布式数据源的统一查询;利用LEMON语法解析器对用户提交的针对虚拟表的SQL语句进行语法分析和语法检测。在小数据查询方面,利用语法树进行语义优化;利用内存数据库实现多数据源结果集合并。在大数据查询方面,利用Pig脚本提交任务;Hadoop实现分布式计算和查询;通过多进程处理HDFS小文件的合并以及文件的上传下载来减少NameNode节点的负载,提升上传下载的速度;对高频业务建立索引,能快速查找数据,减少数据加载量实现了数据查询的优化,达到了优化目的。
  本课题的研究方法屏蔽了分布式数据源查询的复杂细节,能够为用户提供一个统一、简便的SQL查询接口,使分布式数据的联合查询更加便捷,有效地提高了联合查询的执行效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号