基于超图和浓密树的大数据实时查询优化研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

Impala是Cloudera公司推出的大数据实时查询系统，其利用分布式技术，使用Hadoop作为存储，通过Hive的元数据表获取统计信息，实现大数据的高效查询。Impala的最新版本提供了一些查询优化技术，但目前只支持左深树形式的查询计划，同时由于目前基于McCHyp(MinCutConservative Hypergraph)算法的查询优化存在搜索空间大、优化时间较长的问题，本文提出了基于浓密树和改进的McCHyp算法的Impala查询优化方法。首先分析Impala系统生成查询计划的方法，修改构建流程使其支持浓密树形式的查询计划;接着分析McCHyp算法并使用剪枝策略对其进行改进，减少优化算法执行的时间，同时对剪枝策略的完整性和正确性进行了说明;然后通过分析多种经典的代价模型，提出一种综合考虑了磁盘I/O、网络传输和右表大小的代价模型，并将改进的McCHyp算法集成到Impala2.0系统中，根据用户的SQL语句生成最优查询计划。最后从优化算法、代价模型、查询性能和可扩展性四个方面在TPC-DS数据集上进行了对比实验，实验结果表明本文提出的方法有效提高了查询的效率，同时通过增加集群节点可以进一步减少查询响应时间。

著录项

作者
马骄阳;
展开▼
作者单位

浙江大学;

展开▼
授予单位浙江大学;
学科计算机技术
授予学位硕士
导师姓名陈岭;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
大数据实时查询系统; 浓密树; 优化算法; 响应时间;

相似文献

中文文献
外文文献
专利

1. 基于浓密树和改进McCHyp算法的Impala查询优化 [J] . 马骄阳 ,陈岭 ,赵宇亮 . 计算机研究与发展 . 2014,第S2期
2. 基于线性浓密树的并行数据库查询优化算法 [J] . 厉阳春 . 湖南理工学院学报（自然科学版） . 2006,第001期
3. 基于实时关联分析算法及CEP的大数据安全分析模块研究与实现 [J] . 孙鑫斌 ,赵俊峰 ,姜帆 . 电力信息化 . 2017,第012期
4. 基于实时关联分析算法及CEP的大数据安全分析模块研究与实现 [J] . 孙鑫斌1 ,赵俊峰2 ,姜帆1 . 电力信息与通信技术 . 2017,第012期
5. 基于大数据量实时流媒体P2P树算法研究 [J] . 孙为 ,张宝杰 ,车嵘 . 兰州理工大学学报 . 2006,第006期
6. 基于RSOM树和类属超图的分布式图像检索方法 [C] . 宋锐 ,夏胜平 ,刘建军 . 第十四届全国信号处理学术年会 . 2009
7. 基于超图划分的大数据实时查询优化研究与实现 [A] . 周强 . 2014

基于超图和浓密树的大数据实时查询优化研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅