面向电子商务网站的增量爬虫设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网和电子商务的快速发展,电子商务网站越来越多,为了尽快的找到和比较商品,越来越多的人通过比较购物网站来精准的搜索和比较商品。在比较购物网站中,可以轻松的获取商品的详细信息,如价格、性能参数、图片等信息,还能方便的比较同一商品在不同电子商务网站的价格、评价等信息,从而选择合适的电子商务网站进行购物。然而,电子商务网站时刻都在发生变化,如商品的新增、删除以及商品价格的调整等。传统的比较购物网站往往存在商品信息滞后,数据与电子商务网站存在较大差异,影响用户体验,不能真正实现比较购物。
　　为了解决上述问题,在比较购物网站中需要引入增量爬虫来实现数据的增量抓取。增量爬虫的特征是维护网页的变化轨迹并预测变化时间,提供待检查的URL列表。增量爬虫对电子商务网站的增量抓取效果,直接影响比较购物网站数据的准确性,可以说增量抓取技术的应用程度,是整个比较购物网站是否成功的关键。一个好的增量抓取爬虫,可以减少购物搜索引擎中人工干预的程度,提高搜索引擎自身的时新性、查准率和查全率,以及有效改善网络带宽的使用效率。
　　根据相关统计数据显示,国内电子商务网站的层级主要分为二级和三级,基于这一规律,本文提出了基于URL分类的爬行策略,将URL分为Index类、Channel类、List类、Content类、其它类。其中Index类、Channel类和List类为索引类URL,索引类URL指向的页面不包含具体商品信息,以导航形式指向其它索引页或Content内容页,Content类指向的页面为商品详细页,包含了商品的名称、图片、价格、介绍等信息,图片及其它类指向图片、CSS样式、附件等文件。同时设计了面向电子商务网站的抓取模型,对增量抓取的关键算法进行了描述,并在开源网络爬虫Heritrix的基础上实现增量抓取。通过对电子商务网站的抓取实验,表明该增量爬行策略的设计能够及时有效的发现电子商务网站数据的更新,实现增量抓取。

著录项

作者
杨颂;
展开▼
作者单位

湖南大学;

展开▼
授予单位湖南大学;
学科软件工程
授予学位硕士
导师姓名欧阳柳波,刘金朝;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.09;TP311.52;
关键词
电子商务; 网站设计; 搜索引擎; 增量爬虫; Heritrix软件;

相似文献

中文文献
外文文献
专利

1. 基于Heritrix的面向电子商务网站增量爬虫研究 [J] . 杨颂 ,欧阳柳波 . 软件导刊 . 2010,第007期
2. 基于Heritrix的面向电子商务网站增量爬虫研究 [J] . 杨颂 ,欧阳柳波 . 软件导刊 . 2010,第007期
3. 面向增量同生主题的维吾尔文爬虫的研究 [J] . 赵永霄 ,哈力旦·阿布都热依木 ,张振东 . 计算机应用研究 . 2014,第011期
4. 基于Heritrix的增量式爬虫设计与实现 [J] . 孟庆浩 ,王晶 ,沈奇威 . 电信技术 . 2014,第009期
5. 面向热点新闻的爬虫系统设计与实现 [J] . 林文涛 ,陈伟强 ,刘杭燕 . 数字通信世界 . 2019,第001期
6. 基于增量贝叶斯算法的主题爬虫的设计与实现 [C] . PENG Xiao-ming ,彭小明 ,XIN Yang . 第九届中国通信学会学术年会 . 2012
7. 基于增量式爬虫的搜索引擎系统的设计与实现 [A] . 韩逸 . 2015

面向电子商务网站的增量爬虫设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅