云环境下海量XML文档的分布式Twig查询处理算法的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的迅速发展，XML已经成为互联网上信息存储和数据交换的重要标准，因此，XML文档的数据规模急剧增长，使得海量XML文档的查询处理成为当前比较热门的研究方向。XML文档查询的核心操作是小枝模式(Twig)查询，但是传统的Twig查询处理算法在海量XML文档上的查询效率低，高效地查询处理海量XML文档的研究还很少，并且存在许多问题。
　　云计算是当前处理海量数据的主流技术，云环境下海量数据管理技术研究主要包括数据分片和分布式查询处理。首先，在数据分片方面，本文提出了XML文档的任意分片算法AF(Arbitrarily Fragmentation)，AF算法能够在保证分片的任意性的前提下，通过记录分割结点信息以维持XML文档结构信息的完整性。其次，在分布式查询处理方面，本文提出了基于MapReduce的分布式Twig查询处理算法DTS(DTwigStack)，该算法利用AF算法记录的分割结点信息，分布式的处理所有的分片，并输出所有可能组合成最终的查询匹配结果的局部结果。然后，为了保证把有可能合并成最终结果的局部路径结果发送到同一个Reduce任务进行处理，本文引入了ComMapReduce框架中的Coordinator节点，用来收集DTS算法在Map阶段执行得到的键值信息，并在整合之后发送给所有的Mapper节点，重新修改键值，从而保证能够把具有相同键值的局部路径结果发送到同一个Reduce任务，并组合成最终的匹配结果。
　　本文设计了一系列实验，包括分布式查询处理算法DTS的性能与Hadoop集群slave节点数之间的关系以及与数据大小之间的关系，并且对DTS算法的加速比，可扩展性和规模增长性的性能进行了实验。实验表明分布式DTS算法在海量XML文档的查询上具有良好的性能。

著录项

作者
张盼;
展开▼
作者单位

东北大学;

展开▼
授予单位东北大学;
学科计算机软件与理论
授予学位硕士
导师姓名赵相国;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类信息处理（信息加工）;
关键词
可扩展标记语言; 小枝模式; 查询处理; 算法设计; 云计算;

相似文献

中文文献
外文文献
专利

1. 云环境下Hadoop分布式文件系统K-means算法并行处理改进 [J] . 杨小虎 ,程锦 ,朱苍璐 . 宜宾学院学报 . 2021,第012期
2. 云环境下基于LSH的分布式数据流聚类算法 [J] . 曲武 ,王莉军 ,韩晓光 . 计算机科学 . 2014,第011期
3. 海量数据下基于Hadoop的分布式FP-Growth算法 [J] . 朱颢东 ,薛校博 ,李红婵 . 郑州轻工业学院学报（自然科学版） . 2018,第005期
4. 海量数据下基于Hadoop的分布式FP-Growth算法 [J] . 朱颢东 ,薛校博 ,李红婵 . 轻工学报 . 2018,第005期
5. 海量高维数据下分布式特征选择算法的研究与应用 [J] . 陈晓明 . 科技通报 . 2013,第8期
6. TKEP:海量数据上一种有效的Top-K查询处理算法 [C] . 韩希先 ,杨东华 ,李建中 . 第27届中国数据库学术会议 . 2010
7. 概率XML文档中Twig查询处理算法的研究与实现 [A] . 刘潘 . 2010

云环境下海量XML文档的分布式Twig查询处理算法的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅