首页> 中文学位 >基于聚类的网站访问数据分析技术及实现
【6h】

基于聚类的网站访问数据分析技术及实现

代理获取

目录

第一个书签之前

参考文献范例

展开▼

摘要

近几年,云计算飞速发展,大数据处理技术也在不断成熟。与此同时,随着国内移动互联网市场规模不断扩大,用户数量也随之快速增长,并带来了海量的移动互联网数据。但大部分数据仍处于沉睡状态,基于此,如何利用大数据处理技术来承载海量网络数据处理业务,挖掘其潜在的应用价值,为用户提供个性化的服务,成为亟需解决的问题。 针对网络海量数据处于待开发的状态,该技术主要面向应用开发商,对其产品在各种不同终端设备上用户产生的行为数据,利用大数据处理技术对其进行收集、清洗、过滤出有价值的信息,统计分析用户所需的各种信息,对应用开发商的一些决策提供比较可靠的数据支持。为了解决与日俱增的应用访问日志的存储与处理的问题,该平台采用“分布式”的框架,利用大数据技术实现系统的功能。该分析技术主要包括数据采集落地模块,通过自主开发的SDK实时采集数据+Nginx服务器实现数据落地的处理;数据收集和聚合模块模块,通过Flume的二次开发实现数据的非重复、无丢失收集到Kafka,进而将数据存储在HDFS上;hive数据清洗模块,自定义UDTF函数实现日志聚合体的拆分,中间结果通过Sqoop导出到MySql中;数据分析,Hive和Spark结合实现数据的离线分析、spark streaming实现准实时分析;azkaban job调度模块实现作业的定期调度等。 本文所介绍的基于聚类的网站访问数据分析技术及实现已经经过详尽的系统测试,包含硬件、软件环境和功能性的测试,现在已正式投入使用。

著录项

  • 作者

    肖园园;

  • 作者单位

    大连理工大学;

  • 授予单位 大连理工大学;
  • 学科 软件工程
  • 授予学位 硕士
  • 导师姓名 江贺;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    聚类; 网站;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号