首页> 中文学位 >面向电子商务网站的增量爬虫设计与实现
【6h】

面向电子商务网站的增量爬虫设计与实现

代理获取

目录

文摘

英文文摘

论文说明:图表目录、注释表

第1章 绪论

1.1 课题研究背景及意义

1.2 国内外研究现状

1.2.1 国外研究现状

1.2.2 国内研究现状

1.3 本文的研究内容

1.4 论文结构

第2章 搜索引擎及网络爬虫相关技术

2.1 搜索引擎的发展

2.2 购物搜索引擎

2.3 网络爬虫

2.3.1 网络爬虫的工作原理

2.3.2 网络爬虫的搜索策略

2.4 增量抓取技术

2.5 开源网络爬虫Heritrix

2.5.1 Heritrix爬虫的架构

2.5.2 抓取任务控制组件CrawIController

2.5.3 URL提取组件Frontier

2.5.4 处理链接队列Processors

2.5.5 Heritrix的多线程机制

2.6 本章小结

第3章 网页增量抓取策略及爬虫系统设计

3.1 电子商务网站的总体特征

3.2 电子商务网站的页面变化规律

3.2.1 网页变化的特征

3.2.2 网页变化的时新性

3.2.3 网页变化分析方法

3.3 基于URL分类的网页增量抓取策略

3.3.1 URL的分类

3.3.2 基于URL分类的网页增量抓取策略

3.4 增量爬虫的系统结构

3.5 系统各模块设计

3.5.1 用户接口模块

3.5.2 链接生成模块

3.5.3 任务控制模块

3.5.4 中央处理器模块

3.5.5 数据模块

3.6 增量抓取的关键技术

3.6.1 多线程下载

3.6.2 网页分析

3.6.3 页面检测及更新

3.7 本章小结

第4章 基于Heritrix的增量爬虫系统实现

4.1 开发环境

4.2 基于Heritrix进行扩展

4.2.1 Heritrix的配置和运行

4.2.2 Eclipse中Heritrix的配置

4.3 增量抓取功能的实现

4.3.1 页面的变化检测

4.3.2 页面更新的实现

4.4 针对电子商务网站页面分析技术实现

4.4.1 从列表页获取产品详细页的实现

4.4.2 产品信息抽取的实现

4.5 URL的过滤和分类

4.5.1 URL过滤规则的实现

4.5.2 URL的分类实现

4.6 实验及结果分析

4.7 本章小结

结论与展望

参考文献

致谢

附录A 作者攻读硕士学位期间的主要研究成果

展开▼

摘要

随着互联网和电子商务的快速发展,电子商务网站越来越多,为了尽快的找到和比较商品,越来越多的人通过比较购物网站来精准的搜索和比较商品。在比较购物网站中,可以轻松的获取商品的详细信息,如价格、性能参数、图片等信息,还能方便的比较同一商品在不同电子商务网站的价格、评价等信息,从而选择合适的电子商务网站进行购物。然而,电子商务网站时刻都在发生变化,如商品的新增、删除以及商品价格的调整等。传统的比较购物网站往往存在商品信息滞后,数据与电子商务网站存在较大差异,影响用户体验,不能真正实现比较购物。
   为了解决上述问题,在比较购物网站中需要引入增量爬虫来实现数据的增量抓取。增量爬虫的特征是维护网页的变化轨迹并预测变化时间,提供待检查的URL列表。增量爬虫对电子商务网站的增量抓取效果,直接影响比较购物网站数据的准确性,可以说增量抓取技术的应用程度,是整个比较购物网站是否成功的关键。一个好的增量抓取爬虫,可以减少购物搜索引擎中人工干预的程度,提高搜索引擎自身的时新性、查准率和查全率,以及有效改善网络带宽的使用效率。
   根据相关统计数据显示,国内电子商务网站的层级主要分为二级和三级,基于这一规律,本文提出了基于URL分类的爬行策略,将URL分为Index类、Channel类、List类、Content类、其它类。其中Index类、Channel类和List类为索引类URL,索引类URL指向的页面不包含具体商品信息,以导航形式指向其它索引页或Content内容页,Content类指向的页面为商品详细页,包含了商品的名称、图片、价格、介绍等信息,图片及其它类指向图片、CSS样式、附件等文件。同时设计了面向电子商务网站的抓取模型,对增量抓取的关键算法进行了描述,并在开源网络爬虫Heritrix的基础上实现增量抓取。通过对电子商务网站的抓取实验,表明该增量爬行策略的设计能够及时有效的发现电子商务网站数据的更新,实现增量抓取。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号