首页> 中文学位 >云计算环境下的多数据集连接优化
【6h】

云计算环境下的多数据集连接优化

代理获取

目录

声明

摘要

图的目录

表的目录

1 绪论

1.1 研究背景

1.2 相关工作

1.3 本文主要工作

1.4 本文结构

2 相关技术

2.1 云计算

2.1.1 云计算的概念

2.1.2 云计算的特点

2.1.3 云计算的服务层次

2.2 Hadoop平台

2.2.1 Hadoop

2.2.2 基于Hadoop的项目

2.2.3 HDFS

2.2.4 MapReduce

2.3 基于MapReduce的两表连接

2.3.1 Reduce端连接

2.3.2 Map端连接

2.3.3 基于MapReduce的两表连接优化

2.4 基于MapReduce的多表连接

2.4.1 多表连接分类

2.4.2 基于MapReduce的多表连接

2.4.3 基于MapReduce的多表连接优化

2.5 本章小结

3 MDMJ模型

3.1 基于MDMJ模型的三表链式连接

3.2 基于MDMJ模型的多表连接

3.3 本章小结

4 面向链式连接的TD-HMJ模型

4.1 TD-HMJ模型的处理过程

4.2 TD-HMJ分组策略

4.3 TD-HMJ节点分配策略

4.4 TD-HMJ算法

4.5 TD-HMJ实现

4.6 性能分析

4.6.1 MapReduce过程调用

4.6.2 节点数

4.6.3 数据传输量

4.7 本章小结

5 通用TD-HMJ模型

5.1 TD-HMJ简化模型

5.2 改进的TD-HMJ模型

5.3 TD-HMJ通用模型

5.4 本章小结

6 性能测试

6.1 连接表数

6.2 文件大小

6.3 节点数

6.4 本章小结

7 总结与展望

参考文献

个人简历及在学期间发表的学术论文

致谢

展开▼

摘要

“大数据”时代的到来,加快了云计算技术的发展和推广,众多涉及海量数据处理的云平台蓬勃涌现。云计算技术已逐步发展成熟,并深入人们生活、工业和研究的各个方面。MapReduce是一种已广泛运用到云计算数据处理的并行编程模型,如何使得MapReduce支持关系模型数据库进行复杂的数据处理已吸引不少企业界和学术界的研究。
   在大规模数据分析中,复杂处理要求越来越多,数据连接、查询信息往往跨越多个数据集。现有的基于MapReduce的多表连接机制多采用串行级联方式实现,将多表连接分为多次两表连接。该模式产生大量的中间数据,需要进行多次数据传输,效率较低。因此,改善多表连接方式、提高多表连接效率成为基于MapReduce数据处理研究的一个亟待解决的问题。
   本文首先介绍了云计算的相关技术、Hadoop平台、HDFS和MapReduce编程模型,然后在此基础上分析云环境中多数据集连接的实现和研究现状,并提出基于二维节点矩阵的分级多表连接模型TD-HMJ(Two-DimensionnodematrixbasedHierarchizedMulti-Join)。TD-HMJ首先设置对中key为元组结构,通过一次Map过程处理所有连接属性;然后建立二维Reduce节点矩阵,以一对一或一对多的方式传输中间结果;再进行多组3(2)表并行连接:最后通过多级Reduce过程实现多组间连接。实验表明:TD-HMJ有效减少了多表并行连接时的数据传输量,缩短了多表连接时间,提高了连接效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号