首页> 中文学位 >面向大数据中心的数据检索研究与实现
【6h】

面向大数据中心的数据检索研究与实现

代理获取

目录

声明

致谢

摘要

1 绪论

1.1 选题背景及意义

1.2 国内外研究现状

1.2.1 大数据管理模式研究现状

1.2.2 数据检索方法研究现状

1.3 主要研究内容

1.4 技术路线

1.5 本章小结

2 空间数据检索的相关理论和实现方法

2.1 空间数据

2.2 Oracle Spatial简介

2.3 基于空间位置检索

2.4 基于属性数据检索

2.5 基于空间关系检索

2.5.1 基于九交模型的拓扑关系查询

2.5.2 基于缓冲区的距离关系查询

2.6 其他相关信息检索

2.7 本章小结

3 非空间数据检索的相关理论和实现方法

3.1 LOB存储技术

3.2 基于词库的自动分词技术

3.2.1 分词预处理

3.2.2 分词词典设计

3.2.3 自动分词算法

3.3 基于结构和统计相结合的自动文摘技术

3.3.1 自动文摘方法概述

3.3.2 意义词提取

3.3.3 主题层次划分

3.3.4 关键词权重计算

3.3.5 文本摘要生成

3.4 基于词表的全文检索技术

3.5 基于thrift框架的数据检索服务

3.5.1 Thrift介绍

3.5.2 Thrift框架体系

3.6 本章小结

4 应用实例

4.1 系统总体设计

4.1.1 开发与运行环境

4.1.2 系统架构设计

4.1.3 主要功能模块设计

4.2 空间数据检索模块

4.2.1 空间定位查询

4.2.2 SQL查询

4.2.3 空间关系查询

4.2.4 其他信息查询

4.3 文本数据检索模块

4.3.1 自动分词功能实现

4.3.2 自动文摘功能实现

4.3.3 全文检索功能实现

4.5 数据检索性能分析

4.4 其他检索功能

4.4.1 单节点检索功能实现

4.4.2 数据检索服务功能实现

4.4.3 数据检索引擎机制

4.6 本章小结

5 总结与展望

5.1 总结

5.2 展望

参考文献

作者简历

学位论文数据集

展开▼

摘要

近年来,随着信息获取技术的迅猛发展,各种应用所产生的数据呈指数级增长,同时伴随着新数据源的不断涌现,数据内容也越来越丰富,预示着我们已经进入大数据时代。面对如此庞大的数据量、繁多的数据类型和复杂的数据结构,如何高效、统一地管理数据、获取有价值的信息显得迫在眉睫。为了解决这一难题,各类数据管理系统应运而生,大数据中心系统就是其中之一,提供了对于现有数据资源的综合检索和管理能力。
  本文结合大数据中心系统的应用需求,从空间数据和非空间数据两个方面出发,系统地研究了数据检索的实现方法,旨在实现目标数据的快速、准确获取,进而为用户的决策分析提供参考和依据。(1)空间数据检索部分。论文在分析空间数据基本特征和Oracle Spatial技术的基础上,选取空间数据的空间特征、属性特征和空间关系特征等作为空间数据检索的基本方向,研究了基于Oracle Spatial的空间数据检索功能的工作原理和实现方法;同时提出了基于九交模型的拓扑关系查询方法,实现了对所有拓扑关系的唯一表达;阐述了空间对象缓冲区的建立方法,实现了典型的距离关系查询——缓冲区查询;最后对空间数据的描述信息进行有效组织,进而实现海量空间数据的高效检索。(2)非空间数据检索部分。论文以文本数据作为主要研究对象,提出了基于摘要实现数据检索的方法。其中,涉及的重点内容包括:自动分词中,利用分词词典的分层设计架构优化了正向最大匹配分词算法,进一步提高了自动分词的效率;自动文摘中,在分析现有文摘方法的基础上,提出了基于结构和统计相结合的自动文摘方法,弥补了现有方法在适用范围和文摘可读性方面的缺陷与不足;最后阐述了基于词表的全文检索技术,打破了以往关键词检索的局限性。这种通过附加摘要提高数据检索效率的思想为海量非空间数据的检索奠定了基础。(3)将论文研究内容应用于实践,设计并开发了面向大数据中心系统的数据检索功能,证实了论文研究成果的准确性和实用性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号