基于Hadoop的专利文献存储平台的设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近100年来，人类科学技术突飞猛进，使专利信息数量加速增长，全球专利文献经过百年积累也已经浩如烟海。专利文献数据作为海量信息资源的一种，对科研和技术发展起着至关重要的作用。专利文献数据量大，内容繁杂，并且属于非结构化数据，传统的数据存储方式已远不能满足需求。研究针对专利文献的高效存储和检索方式十分有意义。
　　本文根据专利文献数据特点，分析专利文献存储平台的需求，设计基于Hadoop的专利文献存储平台结构和主要类。设计HDFS存储结构，针对小文件存储格式进行优化。根据专利文献文本目录属性，设计Hbase分布式存储结构。根据平台存储情形，提出基于海量数据的K-means聚类算法存储模型。另外，对数据查询进行设计，并设计数据上传模块，以消除文件上传限制。
　　本文分析专利文献数据特点，对TF-IDF进行改进，对特征词根据位置赋予相应权重，并利用Map/Reduce并行化计算文本空间向量。对空间向量进行降维，减少噪声干扰和聚类时间。针对聚类算法聚类精度低、收敛速度慢的问题，提出基于采集文本的K-means聚类算法，然后对空间向量进行聚类存储。对小文件存储格式SequnceFile进行优化，实现HBase和HDFS映射，以优化存储空间，提升HDFS的检索效率。为专利目录设计Hbase表结构，建立Lucene索引并存储，建立基于目录索引和聚类中心的二级索引，判断用户检索意图，缩小检索范围，实现检索和效率提升。实现基于词典翻译的中英文跨语检索，针对翻译词的歧义问题，本文提出基于贝叶斯分类的迭代消歧算法，利用聚类中心索引，减少文档计算范围，提升跨语检索效率。对输入关键字做优化，支持普通检索、多关键字检索、中英文跨语检索、IPC分类检索。最后通过实验证明平台的可行性。
　　本文以“海量专利文献云计算应用存储平台”项目为基础，从优化数据存储结构出发，以Hadoop分布式框架为研究对象，结合Hbase非关系型数据库、HDFS分布式文件系统、Map/Reduce编程模型研究针对专利文献数据的高效存储和检索。

著录项

作者
李阳军;
展开▼
作者单位

大连海事大学;

展开▼
授予单位大连海事大学;
学科计算机技术
授予学位硕士
导师姓名史金余,梁好;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类专利;
关键词
专利文献; 存储平台; 数据检索; Hadoop平台;

相似文献

中文文献
外文文献
专利

1. 基于Hadoop的海量图片存储平台的设计与开发 [J] . 周晓庆 ,周智勇 ,高江锦 . 电脑知识与技术 . 2018,第017期
2. 基于Hadoop的海量数据存储平台设计与开发 [J] . 段军红1 ,张小东2 ,史庆华3 . 电子技术与软件工程 . 2017,第016期
3. 基于Hadoop技术的云存储平台的构建 [J] . 陈克明 . 无线互联科技 . 2016,第012期
4. 基于Hadoop高校教育资源云存储平台构建研究 [J] . 王凤领 . 计算机技术与发展 . 2016,第003期
5. 基于Hadoop的钢铁生产大数据存储平台研究 [J] . 王卓 ,辛星 ,尹晓 . 软件 . 2016,第009期
6. 一种基于Hadoop的智慧旅游资源存储平台设计实现 [C] . 刘全飞 ,周相兵 . 第七届四川省中青年专家学术大会 . 2015
7. 基于Hadoop与SSM的大数据云存储平台设计与实现 [A] . 袁斯烺 . 2018

基于Hadoop的专利文献存储平台的设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅