声明
摘要
第一章 绪论
1.1 研究背景
1.2 国内外研究现状
1.3 本文的主要工作内容
1.4 论文的组织结构
第二章 相关技术简介
2.1 文本索引相关技术
2.2 分布式索引相关技术
2.3 文本聚类相关技术
2.3.1 聚类与相关算法
2.3.2 文本向量表示
2.4 MapReduce计算模型
2.5 本章总结
第三章 K-means算法优化及其并行化实现
3.1 K-means算法概述
3.2 大数据环境下的K-means算法优化
3.2.1 K-means算法优化相关研究
3.2.2 SCB-K-means算法
3.3 文本向量模型表示及其并行化实现
3.3.1 文本向量模型表示步骤
3.3.2 文本向量模型表示的并行化实现
3.4 SCB-K-means算法的并行化实现
3.4.1 文本向量相似度
3.4.2 SCB-K-means算法的并行化实现
3.5 本章总结
第四章 分布式索引构建及集合选择
4.1 Lucene简介
4.2 分布式环境下索引创建
4.3 集合选择及检索
4.3.1 集合选择算法筒介
4.3.2 集合选择算法在分布式系统中的实现
4.4 本章总结
第五章 实验与分析
5.1 实验设计
5.2 实验硬件环境及软件环境
5.2.1 实验硬件环境
5.2.2 实验软件环境
5.3 实验结果与分析
5.3.1 索引创建效率对比实验
5.3.2 检索效率对比实验
5.3.3 检索准确度对比
5.4 本章小结
第六章 总结与展望
6.1 总结
6.2 展望
参考文献
致谢
攻读学位期间发表的学术论文目录
山东大学;