首页> 中文学位 >一种基于Spark的分布式图数据处理系统设计与实现
【6h】

一种基于Spark的分布式图数据处理系统设计与实现

代理获取

目录

第一个书签之前

展开▼

摘要

随着大数据规模和复杂性的增长,使用图计算技术处理高度关联结构数据成为趋势。图系统是用来存储、查询和分析图数据的系统,根据面向应用领域的不同,图系统可以被分为两大类,即图数据库系统和图计算系统。图数据库系统提供图数据的持久化、查询和事务等特性,而图计算系统则用来处理大规模图数据的并行计算。同时提供这两类功能的综合系统,能很好地提升图数据处理的效率。 设计基于Spark平台的大规模分布式图数据处理系统,利用Spark和图数据库JanusGraph各自的优势,实现大规模分布式图数据存储和分析的功能。首先,搭建负载均衡的图数据存储集群,根据集群结点的响应速度,将查询请求分配到对应的结点上,保证集群各工作结点的负载均衡;其次,设计了一套基于Spark的图数据提取流程,从原始数据中高效地提取出图数据,并发导入到存储集群中;然后,针对查询请求,设计了基于全文索引的数据检索模块来加速属性查询过程,该检索模块还支持根据切分关键词的模糊匹配;最后,针对图数据分析计算任务,利用Spark获取存储集群中的图数据,并实现图数据的迭代分析计算。 对于系统的功能测试和性能测试,采用了几种基准测试应用,设计了一个基准应用测试框架。使用真实的社交数据进行了测试,实验结果表明:基于Spark的大规模分布式图数据处理系统可以完成图数据的分布式存储、查询和分析的需求,在数据提取和分析计算的速度上比单机具有明显的优势。

著录项

  • 作者

    汤智阳;

  • 作者单位

    华中科技大学;

  • 授予单位 华中科技大学;
  • 学科 计算机技术
  • 授予学位 硕士
  • 导师姓名 蒋文斌;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 汽车工程;
  • 关键词

    Spark; 分布式; 数据处理;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号