声明
摘要
图目录
表目录
第1章 绪论
1.1 研究背景及意义
1.2.1 搜索空间
1.2.2 搜索策略
1.2.3 代价模型
1.2.4 目前研究存在的问题
1.3 研究目标及内容
1.4 本文结构组织
1.5 本章小结
第2章 Impala大数据实时查询系统
2.1 Impala介绍
2.1.1 Impala 1.0系统
2.1.2 Impala 2.0系统
2.2 Impala 1.0系统查询过程
2.2.1 语法解析
2.2.2 查询计划生成
2.2.3 执行计划生成
2.2.4 查询和汇总
2.3 Impala 2.0系统对查询过程的改进
2.4 本章小结
第3章 代价估计
3.1 概述
3.2 统计信息收集
3.3 代价模型
3.4 代价估计方法
3.4.1 基于表的代价估计方法
3.4.2 基于列的代价估计方法
3.5 本章小结
第4章 基于超图和浓密树的大数据实时查询优化
4.1 概述
4.2 基本定义
4.3 查询超图建模
4.4 改进的McCHyp算法
4.4.1 集成剪枝策略的改进的McCHyp算法
4.4.2 改进的MeCItyp算法优化过程举例
4.5 剪枝策略的完整性和正确性
4.6 本章小结
第5章 系统实现
5.1 系统总体框架
5.2 查询计划形式的修改方法
5.2.1 JoinTree结构
5.2.2 JoinNode结构
5.2.3 HashJoinRef结构
5.2.4 构造查询计划的方法
5.3 改进的McCHyp算法在Impala中的集成
5.4 本章小结
第6章 实验评估
6.1 实验环境
6.2 实验设置
6.3 实验数据
6.4 实验结果与分析
6.4.1 优化算法对比
6.4.2 代价模型对比
6.4.3 查询性能对比
6.4.4 可扩展性对比
6.5 本章小结
第7章 总结与展望
7.1 总结
7.2 展望
参考文献
攻读硕士学位期间主要的研究成果
致谢
浙江大学;