首页> 中文学位 >基于Hadoop的专利文献存储平台的设计与实现
【6h】

基于Hadoop的专利文献存储平台的设计与实现

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景与意义

1.2 研究现状

1.2.1 海量专利文献数据存储现状

1.2.2 信息检索现状

1.3 论文主要工作

1.4 论文结构

1.5 本章小结

第2章 相关技术

2.1 数据存储技术

2.1.1 海量数据云存储技术

2.1.2 网格存储技术

2.2 分布式文件系统

2.2.1 分布式文件存储HOFS

2.2.2 Map/Reduce处理模型

2.2.3 结构化数据库Hbase

2.3 小文件存储格式

2.3.1 Hadoop Archive文件归档

2.3.2 SequenceFile存储格式

2.3.3 CombineFilelnputFormat存储格式

2.4 聚类算法

2.5 相似性度量方法

2.6 Lucene工具介绍

2.7 本章小结

第3章 专利文献存储平台的方案设计

3.1 专利文献数据存储平台的需求分析

3.2 平台整体结构设计

3.3 基于海量数据的K-means聚类算法存储模型

3.4 存储方案设计

3.5 数据查询设计

3.6 数据采集设计

3.7 数据处理方案设计

3.8 本章小结

第4章 基于Hadoop的专利文献存储平台实现

4.1 基于聚类的数据存储实现

4.1.1 文本量化预处理

4.1.2 文本聚类

4.1.3 聚类数据存储

4.2 目录存储和索引实现

4.2.1 基于目录的存储

4.2.2 二级索引实现

4.3 检索实现

4.3.1 输入预处理

4.3.2 检索优化

4.3.3 跨语检索实现

4.4 本章小结

第5章 平台性能测试与分析

5.1 平台运行环境

5.2 部署Hadoop

5.3 测试指标

5.4 测试数据集

5.5 测试结果和性能分析

5.6 本章小结

第6章 总结与展望

6.1 总结

6.2 展望

参考文献

致谢

展开▼

摘要

近100年来,人类科学技术突飞猛进,使专利信息数量加速增长,全球专利文献经过百年积累也已经浩如烟海。专利文献数据作为海量信息资源的一种,对科研和技术发展起着至关重要的作用。专利文献数据量大,内容繁杂,并且属于非结构化数据,传统的数据存储方式已远不能满足需求。研究针对专利文献的高效存储和检索方式十分有意义。
  本文根据专利文献数据特点,分析专利文献存储平台的需求,设计基于Hadoop的专利文献存储平台结构和主要类。设计HDFS存储结构,针对小文件存储格式进行优化。根据专利文献文本目录属性,设计Hbase分布式存储结构。根据平台存储情形,提出基于海量数据的K-means聚类算法存储模型。另外,对数据查询进行设计,并设计数据上传模块,以消除文件上传限制。
  本文分析专利文献数据特点,对TF-IDF进行改进,对特征词根据位置赋予相应权重,并利用Map/Reduce并行化计算文本空间向量。对空间向量进行降维,减少噪声干扰和聚类时间。针对聚类算法聚类精度低、收敛速度慢的问题,提出基于采集文本的K-means聚类算法,然后对空间向量进行聚类存储。对小文件存储格式SequnceFile进行优化,实现HBase和HDFS映射,以优化存储空间,提升HDFS的检索效率。为专利目录设计Hbase表结构,建立Lucene索引并存储,建立基于目录索引和聚类中心的二级索引,判断用户检索意图,缩小检索范围,实现检索和效率提升。实现基于词典翻译的中英文跨语检索,针对翻译词的歧义问题,本文提出基于贝叶斯分类的迭代消歧算法,利用聚类中心索引,减少文档计算范围,提升跨语检索效率。对输入关键字做优化,支持普通检索、多关键字检索、中英文跨语检索、IPC分类检索。最后通过实验证明平台的可行性。
  本文以“海量专利文献云计算应用存储平台”项目为基础,从优化数据存储结构出发,以Hadoop分布式框架为研究对象,结合Hbase非关系型数据库、HDFS分布式文件系统、Map/Reduce编程模型研究针对专利文献数据的高效存储和检索。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号