首页> 中文学位 >基于Hadoop的Web日志存储及预处理优化研究
【6h】

基于Hadoop的Web日志存储及预处理优化研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 研究内容和组织结构

1.4 本章小结

第2章Hadoop技术

2.1 HBase

2.2 MapReduce

2.3 Hadoop处理Web日志的优势

2.4 本章小结

第3章Web日志数据在HBase中的存储及优化

3.1 Web日志概述

3.2 Web日志存储

3.3 Web日志存储性能优化

3.4 本章小结

第4章基于MapReduce的Web日志预处理

4.1 Web预处理

4.2 MapReduce框架下的Web日志预处理

4.3 本章小结

第5章实验及数据分析

5.1 实验环境的搭建与配置

5.2 HBase负载均衡优化实验

5.3 基于Hadoop的Web日志预处理实验

5.4 本章小结

结论

致谢

参考文献

作者简介

攻读硕士期间发表论文和参加科研情况说明

展开▼

摘要

互联网、移动互联网等技术的发展,使得服务器上的Web日志急剧膨胀。Web日志记录了上网用户访问Web页面的浏览行为,对网站建设和提供精准服务具有重要的指导意义。但是,原始 Web日志文件中数据的通常是不完整、冗余甚至错误的,直接使用这些数据进行日志分析非常困难,而且有可能得到错误的结果,因此,对 Web日志数据进行预处理是很有必要的。同时,考虑到传统关系数据库存储的约束和单节点数据处理方式的局限性,本文使用Hadoop的分布式处理平台对Web日志数据进行存储和预处理操作,主要内容包括:
  (1)Web日志数据存储
  面对海量Web日志的急剧增长,传统存储技术面临建设成本高、运维复杂、扩展性有限等问题,而现在流行的云数据库具有动态可扩展、高伸缩性、高吞吐性能、低成本等优势,因此,本课题考虑将Web日志存储到Hadoop数据库HBase中,充分利用集群的分布式处理优势。
  (2)HBase负载均衡优化
  数据在HBase中的存储方式在很大程度上左右着整个集群的性能,直接影响着后续读取操作的效率。当MapReduce读取HBase中Web日志数据时可能会造成访问“热点”问题,本文针对这种情况提出一种改进的负载均衡算法即HBase基于子表限制的负载均衡算法,在子表分配过程中除了考虑HRegionServer的负载情况外,还考虑到切割子表region的分配情况,从而实现最大程度上的集群负载均衡。
  (3)用MapReduce对Web日志进行预处理
  Web日志预处理操作关系到Web挖掘的质量,而单一节点的计算能力在处理大规模增长的Web日志上逐渐显露出弊端,MapReduce支持大规模集群操作,本文在分析Web日志预处理过程后,从HBase中读取数据,使用MapReduce计算模型处理Web日志的预处理操作。
  通过对比实验,验证了优化后的HBase负载均衡算法在适当集群环境中可以有效解决负载访问失衡问题,以及验证了MapReduce在处理Web日志预处理过程的高效性。最后,本文对预处理算法进行优化,并验证优化后算法的高效性。

著录项

  • 作者

    宋园园;

  • 作者单位

    河北工程大学;

  • 授予单位 河北工程大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 黄伟建;
  • 年度 2016
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.092;
  • 关键词

    Web日志; Hadoop平台; 负载均衡; 预处理优化;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号