声明
摘要
第一章绪论
1.1研究背景与意义
1.2研究现状
1.3论文主要内容
1.4本章小结
第二章Web网页结构和搜索引擎原理
2.1 Web网页
2.2搜索引擎工作原理
2.3网页数据去重
2.4本章小结
第三章 网页正文内容提取
3.1概述
3.2网页正文内容提取方法
3.2.1网页预处理
3.2.2去除噪声节点
3.2.3定位候选正文树节点
3.2.4从候选树节点中提取正文内容
3.3本章小结
第四章基于关键词的网页去重原理及改进
4.1网页分词
4.2网页相似度改进算法
4.2.1 SimHash算法
4.2.2 SimHash算法实际数据测试
4.2.3 SimHash算法的改进
4.3基于关键词的搜索引擎网页数据去重基本方案
4.3.1算法概述
4.3.2网页数据的关键词抽取
4.3.3关键字抽取流程
4.4本章小结
第五章改进网页去重算法的实现与分析
5.1实验环境
5.1.1 JDK安装和Java环境变量配置
5.1.2安装Tomcat
5.1.3配置和应用Nutch
5.2基于关键词的网页数据去重算法的实现
5.2.1 Nutch中增加中文分词模块
5.2.2 Nutch中增加网页去重模块
5.3实验结果分析
5.3.2实验数据集
5.3.3实验结果及分析
5.4本章小结
第六章总结和展望
参考文献
致谢
主要学术研究成果
华中师范大学;