分布式海量问题数据的相似性检索模型研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网前沿技术被广泛普及与迅速发展，各企业和组织结构内部信息化程度逐步提高，各类信息资源的数据量呈爆炸式增长。信息检索就是从海量的信息资源中获得用户所需要信息的技术。由于目前大多数企业、组织内部所使用的站内搜索引擎技术稍弱，或者单纯依赖于数据库SQL语句查询等相对传统一些的方式解决检索需求，缺乏对于查询内容的相似性度量，使得用户查询体验不尽人意。因此，如何降低成本和高效存储以检索、分析海量半结构化数据而索求价值成为了诸多企业实现数据资产化以及规模化的一大挑战。
　　传统海量数据的处理方法存在数据存储和管理成本较高、处理能力弱以及并行编程复杂等缺点，使其应用范围受到很大限制，且对硬件设备要求极高。在分析现有分布式计算和存储等关键技术基础上，结合对 Hadoop生态系统的研究和实际软硬件条件，为满足海量问题单（Problem Report）的相似性检索需求，提出了分布式海量问题数据的相似性检索模型，以下为本文所作的研究：
　　首先，针对本文半结构化的异构数据集（海量问题单）设计并行化解析算法。利用Hadoop在处理海量数据方面的优势，将原始数据文件存储于HDFS中；通过对现有半结构化 XML文件解析方法的研究，分析并总结各自的优势与不足，自定义数据文件在HDFS上的逻辑分片方式，并结合MapReduce编程框架和自适应元素映射算法实现数据的并行化解析；为了合理的数据组织和避免二次解析，将解析的数据存储到 Hadoop HBase数据库中。
　　接着，构建海量问题数据的相似性检索的索引库。结合查询的实际需求以及数据特点，通过相应域权重参数调整使用Lucene完成和优化索引库的构建。在查询阶段，由用户来设置单个问题单某元素的侧重程度参数来影响相似问题单检索结果的结合排序，在一定程度上提高查准率。
　　最后，实现对检索结果的聚类分析。通过对多个聚类算法的分析和实践，结合模型的实效性需求，本文选取后缀树（STC）聚类算法来辅助用户筛选查阅结果结合。针对STC聚类后的主题选取对类簇的描述性不足这一问题，优化主题选取。利用组块识别技术将文本切分为符合一定语法功能和反映组成意义的短语，相比于以词频和权重的计算策略主题选取更富可读性和指导性。通过实验数据表明论文设计的检索模型在保证良好的查准率和召回率的同时，具备良好的稳定性和有效性。

著录项

作者
王如意;
展开▼
作者单位

桂林电子科技大学;

展开▼
授予单位桂林电子科技大学;
学科计算机技术
授予学位硕士
导师姓名周娅;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
信息资源; 检索模型; 异构数据集; 相似性检索; 聚类算法;

相似文献

中文文献
外文文献
专利

1. 面向海量天文数据的分布式MySQL锥形检索研究 [J] . 杨超 ,梁波 ,戴伟 . 天文研究与技术－国家天文台台刊 . 2021,第003期
2. 基于Cassandra的海量MUSER数据分布式存储与检索研究 [J] . 石玥 ,王锋 ,李鹏程 . 天文研究与技术－国家天文台台刊 . 2018,第003期
3. 海量小文件元数据的分布式存储与检索 [J] . 周国安 ,李强 ,陈新 . 空军预警学院学报 . 2014,第006期
4. 海量小文件元数据的分布式存储与检索 [J] . 周国安 ,李强 ,陈新 . 空军预警学院学报 . 2014,第006期
5. 应对海量数据检索:分布式局部索引的架构 [J] . 张滇 ,岳磅 ,江小燕 . 计算机时代 . 2013,第008期
6. 分布式海量文本检索系统研究 [C] . 张英武 ,杜凯 ,杨树强 . 2006年全国开放式分布与并行计算学术会议 . 2006
7. 海量无线电监测数据的分布式存储及检索技术研究 [A] . 冯浩 . 2016

分布式海量问题数据的相似性检索模型研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅