文摘
英文文摘
论文说明:图表目录、注释表
第1章 绪论
1.1 课题研究背景及意义
1.2 国内外研究现状
1.2.1 国外研究现状
1.2.2 国内研究现状
1.3 本文的研究内容
1.4 论文结构
第2章 搜索引擎及网络爬虫相关技术
2.1 搜索引擎的发展
2.2 购物搜索引擎
2.3 网络爬虫
2.3.1 网络爬虫的工作原理
2.3.2 网络爬虫的搜索策略
2.4 增量抓取技术
2.5 开源网络爬虫Heritrix
2.5.1 Heritrix爬虫的架构
2.5.2 抓取任务控制组件CrawIController
2.5.3 URL提取组件Frontier
2.5.4 处理链接队列Processors
2.5.5 Heritrix的多线程机制
2.6 本章小结
第3章 网页增量抓取策略及爬虫系统设计
3.1 电子商务网站的总体特征
3.2 电子商务网站的页面变化规律
3.2.1 网页变化的特征
3.2.2 网页变化的时新性
3.2.3 网页变化分析方法
3.3 基于URL分类的网页增量抓取策略
3.3.1 URL的分类
3.3.2 基于URL分类的网页增量抓取策略
3.4 增量爬虫的系统结构
3.5 系统各模块设计
3.5.1 用户接口模块
3.5.2 链接生成模块
3.5.3 任务控制模块
3.5.4 中央处理器模块
3.5.5 数据模块
3.6 增量抓取的关键技术
3.6.1 多线程下载
3.6.2 网页分析
3.6.3 页面检测及更新
3.7 本章小结
第4章 基于Heritrix的增量爬虫系统实现
4.1 开发环境
4.2 基于Heritrix进行扩展
4.2.1 Heritrix的配置和运行
4.2.2 Eclipse中Heritrix的配置
4.3 增量抓取功能的实现
4.3.1 页面的变化检测
4.3.2 页面更新的实现
4.4 针对电子商务网站页面分析技术实现
4.4.1 从列表页获取产品详细页的实现
4.4.2 产品信息抽取的实现
4.5 URL的过滤和分类
4.5.1 URL过滤规则的实现
4.5.2 URL的分类实现
4.6 实验及结果分析
4.7 本章小结
结论与展望
参考文献
致谢
附录A 作者攻读硕士学位期间的主要研究成果
湖南大学;