首页> 中文学位 >基于聚类的海量文档集分布式索引构建方法
【6h】

基于聚类的海量文档集分布式索引构建方法

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景

1.2 国内外研究现状

1.3 本文的主要工作内容

1.4 论文的组织结构

第二章 相关技术简介

2.1 文本索引相关技术

2.2 分布式索引相关技术

2.3 文本聚类相关技术

2.3.1 聚类与相关算法

2.3.2 文本向量表示

2.4 MapReduce计算模型

2.5 本章总结

第三章 K-means算法优化及其并行化实现

3.1 K-means算法概述

3.2 大数据环境下的K-means算法优化

3.2.1 K-means算法优化相关研究

3.2.2 SCB-K-means算法

3.3 文本向量模型表示及其并行化实现

3.3.1 文本向量模型表示步骤

3.3.2 文本向量模型表示的并行化实现

3.4 SCB-K-means算法的并行化实现

3.4.1 文本向量相似度

3.4.2 SCB-K-means算法的并行化实现

3.5 本章总结

第四章 分布式索引构建及集合选择

4.1 Lucene简介

4.2 分布式环境下索引创建

4.3 集合选择及检索

4.3.1 集合选择算法筒介

4.3.2 集合选择算法在分布式系统中的实现

4.4 本章总结

第五章 实验与分析

5.1 实验设计

5.2 实验硬件环境及软件环境

5.2.1 实验硬件环境

5.2.2 实验软件环境

5.3 实验结果与分析

5.3.1 索引创建效率对比实验

5.3.2 检索效率对比实验

5.3.3 检索准确度对比

5.4 本章小结

第六章 总结与展望

6.1 总结

6.2 展望

参考文献

致谢

攻读学位期间发表的学术论文目录

展开▼

摘要

全文信息检索技术是当前时代迅速获得准确信息的重要手段之一。在全文信息检索技术中最重要的部分是索引的管理。大数据时代,集中式的索引管理方式面临巨大挑战,最佳的解决方案之一是创建分布式索引。在分布式索引技术中索引分割方式主要有基于文档分割和基于词项分割,两者各有优势与不足,目前对分布式索引技术的研究主要是对两种索引分割方式的改进。
  本文研究了其他学者对不同索引分割方式的改进,对基于文档分割索引的方式进行了研究,在前人基础上提出了基于聚类的分布式索引构建方法。该方法通过聚类操作将原始文档分割为若干个集合,然后在每个集合创建局部索引。该方法发挥了基于文档分割索引方式的系统负载均衡、网络负担较小的优势,同时避免了文档随机分配导致的检索时需要遍历所有局部索引的缺点。本文通过将K-means聚类算法进行优化以及并行化并应用于文档聚类分割,提升了系统效率,优化了索引分割效果,使整个系统更加均衡稳定。
  本文研究了常见的文本聚类算法,通过研究其他学者对K-means算法的优化方法,发现大部分的优化方法需要很高的计算量,不适用于大数据环境,因此在前人基础上提出了一个针对大数据环境的基于样本聚类的优化K-means算法:SCB-K-means算法。该算法基于对样本的多次数轮聚类计算聚类算法的初始聚类中心,有效的提升了聚类效果,在使用该算法分割文档并创建的索引上的检索取得了较好的效果。
  最后本文结合Hadoop框架,使用HDFS和MapReduce计算模型实现了SCB-K-means算法的并行化,并将其应用在分布式索引创建的文档分割部分,在HDFS中使用本文方法对一个较大规模文档集创建了分布式索引,并通过多个实验验证了本文方法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号