基于聚类的海量文档集分布式索引构建方法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

全文信息检索技术是当前时代迅速获得准确信息的重要手段之一。在全文信息检索技术中最重要的部分是索引的管理。大数据时代，集中式的索引管理方式面临巨大挑战，最佳的解决方案之一是创建分布式索引。在分布式索引技术中索引分割方式主要有基于文档分割和基于词项分割，两者各有优势与不足，目前对分布式索引技术的研究主要是对两种索引分割方式的改进。
　　本文研究了其他学者对不同索引分割方式的改进，对基于文档分割索引的方式进行了研究，在前人基础上提出了基于聚类的分布式索引构建方法。该方法通过聚类操作将原始文档分割为若干个集合，然后在每个集合创建局部索引。该方法发挥了基于文档分割索引方式的系统负载均衡、网络负担较小的优势，同时避免了文档随机分配导致的检索时需要遍历所有局部索引的缺点。本文通过将K-means聚类算法进行优化以及并行化并应用于文档聚类分割，提升了系统效率，优化了索引分割效果，使整个系统更加均衡稳定。
　　本文研究了常见的文本聚类算法，通过研究其他学者对K-means算法的优化方法，发现大部分的优化方法需要很高的计算量，不适用于大数据环境，因此在前人基础上提出了一个针对大数据环境的基于样本聚类的优化K-means算法:SCB-K-means算法。该算法基于对样本的多次数轮聚类计算聚类算法的初始聚类中心，有效的提升了聚类效果，在使用该算法分割文档并创建的索引上的检索取得了较好的效果。
　　最后本文结合Hadoop框架，使用HDFS和MapReduce计算模型实现了SCB-K-means算法的并行化，并将其应用在分布式索引创建的文档分割部分，在HDFS中使用本文方法对一个较大规模文档集创建了分布式索引，并通过多个实验验证了本文方法的有效性。

著录项

作者
王万乐;
展开▼
作者单位

山东大学;

展开▼
授予单位山东大学;
学科计算机科学与技术
授予学位硕士
导师姓名石冰;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类信息处理（信息加工）;
关键词
海量文档集; 分布式索引; 文本聚类;

相似文献

中文文献
外文文献
专利

1. 面向海量文档集的分布式索引构建方法 [J] . 王万牙1 ,石冰1 ,陈驰2 . 网络新媒体技术 . 2016,第005期
2. 面向海量文档集的分布式索引构建方法 [J] . 王万乐 ,石冰 ,陈驰 . 网络新媒体技术 . 2016,第005期
3. 基于海量属性数据的索引构建方法研究 [J] . 丁华 ,廖学军 ,张志威 . 装备学院学报 . 2005,第006期
4. 基于分布式索引和目录聚合的海量小文件存储研究 [J] . 马灿 ,孟丹 ,熊劲 . 高技术通讯 . 2012,第010期
5. 基于改进的分布式K-Means特征聚类的海量场景图像检索 [J] . 崔红艳 ,曹建芳 . 计算机应用与软件 . 2016,第006期
6. 基于net构建海量非结构文本与用户行为协同的搜索引擎研究 [C] . Li Dehua ,李德华 ,Gong Yu . 中国南方电网2018年第三届调峰调频技术论坛 . 2018
7. 面向动态文档集的大规模文本索引构建技术的研究 [A] . 葛付江 . 2008

基于聚类的海量文档集分布式索引构建方法

目录

摘要

著录项

相似文献

相关主题

期刊订阅