首页> 中文学位 >分布式海量问题数据的相似性检索模型研究
【6h】

分布式海量问题数据的相似性检索模型研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

§1.1 课题研究背景及意义

§1.2国内外现状

§1.3课题主要研究内容

§1.4论文的组织结构

第二章 相关技术介绍

§2.1 Hadoop概述

§2.2 Lucene全文检索引擎

§2.3分布式数据库HBase

§2.4分布式服务框架Zookeeper

§2.5 STC聚类算法

§2.6本章小结

第三章 分布式海量问题数据的相似性检索模型概述

§3.1开发背景与目的

§3.2功能需求分析

§3.3检索模型Web服务概述

§3.4本章小结

第四章 分布式海量问题数据的相似性检索模型实现

§4.1模块总体架构和设计

§4.2数据采集预处理模块实现

§4.3存储模块实现

§4.4相似问题检索模块

§4.5聚类分析实现

§4.6本章小结

第五章 实验与数据分析

§5.1数据集与搜索评估指标

§5.2 Hadoop集群环境搭建

§5.3实验结果与分析

§5.4本章小结

第六章 总结与展望

§6.1总结

§6.2下一步工作展望

参考文献

致谢

作者在攻读硕士期间主要研究成果

展开▼

摘要

随着互联网前沿技术被广泛普及与迅速发展,各企业和组织结构内部信息化程度逐步提高,各类信息资源的数据量呈爆炸式增长。信息检索就是从海量的信息资源中获得用户所需要信息的技术。由于目前大多数企业、组织内部所使用的站内搜索引擎技术稍弱,或者单纯依赖于数据库SQL语句查询等相对传统一些的方式解决检索需求,缺乏对于查询内容的相似性度量,使得用户查询体验不尽人意。因此,如何降低成本和高效存储以检索、分析海量半结构化数据而索求价值成为了诸多企业实现数据资产化以及规模化的一大挑战。
  传统海量数据的处理方法存在数据存储和管理成本较高、处理能力弱以及并行编程复杂等缺点,使其应用范围受到很大限制,且对硬件设备要求极高。在分析现有分布式计算和存储等关键技术基础上,结合对 Hadoop生态系统的研究和实际软硬件条件,为满足海量问题单(Problem Report)的相似性检索需求,提出了分布式海量问题数据的相似性检索模型,以下为本文所作的研究:
  首先,针对本文半结构化的异构数据集(海量问题单)设计并行化解析算法。利用Hadoop在处理海量数据方面的优势,将原始数据文件存储于HDFS中;通过对现有半结构化 XML文件解析方法的研究,分析并总结各自的优势与不足,自定义数据文件在HDFS上的逻辑分片方式,并结合MapReduce编程框架和自适应元素映射算法实现数据的并行化解析;为了合理的数据组织和避免二次解析,将解析的数据存储到 Hadoop HBase数据库中。
  接着,构建海量问题数据的相似性检索的索引库。结合查询的实际需求以及数据特点,通过相应域权重参数调整使用Lucene完成和优化索引库的构建。在查询阶段,由用户来设置单个问题单某元素的侧重程度参数来影响相似问题单检索结果的结合排序,在一定程度上提高查准率。
  最后,实现对检索结果的聚类分析。通过对多个聚类算法的分析和实践,结合模型的实效性需求,本文选取后缀树(STC)聚类算法来辅助用户筛选查阅结果结合。针对STC聚类后的主题选取对类簇的描述性不足这一问题,优化主题选取。利用组块识别技术将文本切分为符合一定语法功能和反映组成意义的短语,相比于以词频和权重的计算策略主题选取更富可读性和指导性。通过实验数据表明论文设计的检索模型在保证良好的查准率和召回率的同时,具备良好的稳定性和有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号