首页> 中文期刊>信息与电脑 >分布式计算视域的网络爬虫技术研究

分布式计算视域的网络爬虫技术研究

     

摘要

传统的单机网络爬虫技术滞后于海量网页数据的应用场景,存在诸多的缺陷,但Hadoop、Spark等大数据分布式技术可以高效地存储和计算海量网络信息资源。因此,本文设计和应用一种基于Hadoop的分布式网络爬虫系统,进行系统架构设计和工作流程设计。该系统基于模块化设计的理念和方法,在分布式网络爬虫关键技术的依托下,进行分布式网络爬虫技术的功能模块设计,体现其可扩展、高可用性的特点,能较好地适用于海量网页信息资源的应用场景。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号