声明
摘要
第1章 绪论
1.1 研究背景与意义
1.2 研究现状
1.2.1 海量专利文献数据存储现状
1.2.2 信息检索现状
1.3 论文主要工作
1.4 论文结构
1.5 本章小结
第2章 相关技术
2.1 数据存储技术
2.1.1 海量数据云存储技术
2.1.2 网格存储技术
2.2 分布式文件系统
2.2.1 分布式文件存储HOFS
2.2.2 Map/Reduce处理模型
2.2.3 结构化数据库Hbase
2.3 小文件存储格式
2.3.1 Hadoop Archive文件归档
2.3.2 SequenceFile存储格式
2.3.3 CombineFilelnputFormat存储格式
2.4 聚类算法
2.5 相似性度量方法
2.6 Lucene工具介绍
2.7 本章小结
第3章 专利文献存储平台的方案设计
3.1 专利文献数据存储平台的需求分析
3.2 平台整体结构设计
3.3 基于海量数据的K-means聚类算法存储模型
3.4 存储方案设计
3.5 数据查询设计
3.6 数据采集设计
3.7 数据处理方案设计
3.8 本章小结
第4章 基于Hadoop的专利文献存储平台实现
4.1 基于聚类的数据存储实现
4.1.1 文本量化预处理
4.1.2 文本聚类
4.1.3 聚类数据存储
4.2 目录存储和索引实现
4.2.1 基于目录的存储
4.2.2 二级索引实现
4.3 检索实现
4.3.1 输入预处理
4.3.2 检索优化
4.3.3 跨语检索实现
4.4 本章小结
第5章 平台性能测试与分析
5.1 平台运行环境
5.2 部署Hadoop
5.3 测试指标
5.4 测试数据集
5.5 测试结果和性能分析
5.6 本章小结
第6章 总结与展望
6.1 总结
6.2 展望
参考文献
致谢