首页> 中文学位 >基于MongoDB云存储平台的论坛信息抽取与存储研究
【6h】

基于MongoDB云存储平台的论坛信息抽取与存储研究

代理获取

目录

封面

中文摘要

英文摘要

目录

第一章 绪论

1.1 论文研究的背景与意义

1.2 国内外发展现状

1.3 论文主要内容

1.4 论文的组织结构

第二章 云存储与NOSQL

2.1 云存储

2.2 NOSQL

2.3 NOSQL四大类

2.4 MongoDB

2.5 本章小结

第三章 论坛信息存储和抽取的方法

3.1 MYSQL存储查询方法

3.2 MongoDB存储查询方法

3.3 MongoDB存储和查询论坛信息方法

3.4 论坛信息分析

3.5 通用论坛抽取方法

3.6 专业论坛抽取方法

3.7 本章小结

第四章 论坛抽取实验系统的设计

4.1实现系统环境

4.2存储模块

4.3爬虫模块设计

4.4信息抽取模块

4.5系统运行效果及分析

4.5本章小结

第五章 总结和展望

5.1主要工作

5.2存在的问题和未来的方向

参考文献

附 录

致谢

攻读学位期间发表的学术论文

声明

展开▼

摘要

互联网技术的迅猛发展,以及手机、平板、智能电视等各种输入终端的普及,让互联网数据呈现出爆炸性的增长。面对海量的数据,如何能以更加稳定、快速的方式存储海量数据,以及从中挖掘出有价值的信息,成为很多企业面临的新课堂。云存储的出现为数据挖掘快速的发展带来了新的机遇。亚马逊、微软、谷歌、IBM等等巨头纷纷推出了自己的云存储平台,国内百度,华为、腾讯、360等等公司也加紧了在云存储领域的布局。论文以海量的论坛数据做存储样本,搭建了一个支持水平扩展的实验系统。设计并实现了多种论坛数据抽取的方法。最后验证了云存储带来的性能优势。本文主要开展了以下几方面的工作:
  1)本文详细介绍了因云存储发展而带动起来的NOSQL,阐述了各类NOSQL的特点,根据论坛数据的特征,最终筛选了MongoDB来存储数据,并把它与流行的传统关系库MYSQL做了比较,总结了MongoDB的部分优势。随后介绍了MongoDB的使用方式和存储论坛数据的方法。
  2)简述了各类论坛信息抽取的方法,随后分析国内论坛的特点和论坛本身的结构特征,把论坛分成两类:通用论坛和专用论坛。对于通用论坛,用正则表达式进行精确的信息获取;对于专用论坛,提出并设计了一套启发式的抽取方法。应用不同的抽取方法抽取各类论坛数据,提高了抽取准确率。
  3)为验证新设计的存储方式,以及各类论坛信息抽取算法的可行性。本文结合多种论坛数据挖掘方法,设计了一个基于MongoDB分布式存储的论坛抽取实验系统,使系统能支持水平扩展和稳定的存储海量论坛数据,并且准确的挖掘出论坛中各类有用的数据。待存储的数据量达到一定规模后,测试了论坛大数据的存储能力,比较了多种查询下的存储性能。得出了分布式环境下的云存储,在处理大数据上,与单服务架构的MongoDB相比,具有压倒性的优势。
  4)最后对论文工作进行了总结,并讨论了存在的问题和对进一步工作的展望。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号