首页> 中文学位 >基于关键词的搜索引擎网页去重算法研究
【6h】

基于关键词的搜索引擎网页去重算法研究

代理获取

目录

声明

摘要

第一章绪论

1.1研究背景与意义

1.2研究现状

1.3论文主要内容

1.4本章小结

第二章Web网页结构和搜索引擎原理

2.1 Web网页

2.2搜索引擎工作原理

2.3网页数据去重

2.4本章小结

第三章 网页正文内容提取

3.1概述

3.2网页正文内容提取方法

3.2.1网页预处理

3.2.2去除噪声节点

3.2.3定位候选正文树节点

3.2.4从候选树节点中提取正文内容

3.3本章小结

第四章基于关键词的网页去重原理及改进

4.1网页分词

4.2网页相似度改进算法

4.2.1 SimHash算法

4.2.2 SimHash算法实际数据测试

4.2.3 SimHash算法的改进

4.3基于关键词的搜索引擎网页数据去重基本方案

4.3.1算法概述

4.3.2网页数据的关键词抽取

4.3.3关键字抽取流程

4.4本章小结

第五章改进网页去重算法的实现与分析

5.1实验环境

5.1.1 JDK安装和Java环境变量配置

5.1.2安装Tomcat

5.1.3配置和应用Nutch

5.2基于关键词的网页数据去重算法的实现

5.2.1 Nutch中增加中文分词模块

5.2.2 Nutch中增加网页去重模块

5.3实验结果分析

5.3.2实验数据集

5.3.3实验结果及分析

5.4本章小结

第六章总结和展望

参考文献

致谢

主要学术研究成果

展开▼

摘要

互联网的飞速发展使得互联网的数据得到了指数级增长。与报纸、电视和广播这些传统的传输媒体相比,互联网更加高效实时、经济直观,并极具开放性,是新一代的大众传媒。 互联网上的信息纷繁复杂,并存在大量的相似重复网页信息。这些相似重复网页信息不但给网络用户带来了相当大的困扰,增加了搜索目标信息的难度;也降低了竞争情报系统和搜索引擎的网页信息采集分析工作的效率。因此,关于相似重复网页去重技术的研究是一个极具实际意义的研究课题。 本文在分析了当前相似网页去重技术的基础上,详细阐述了网页去重技术的整体流程,包括网页预处理、网页特征提取和相似性判断等,网页预处理包括网页格式正规化处理和网页主题内容提取。提取网页主题内容需先构建DOM文档结构树,然后去除图片、表单和网页脚本等噪声节点,最后定位候选子树节点和进行噪声指数计算。 在相似网页去重算法上,以SimHash算法为基础进行适当的改进,为更准确地表征网页主题内容,在进行网页分词和去除停用词与无意义词后,采用单步前进制的单词序列作为网页特征项,融入了单词与单词的相互位置关系。为降低算法的时间空间复杂度,在进行网页特征项的权重计算的同时,提取出适当数量的网页关键词构建倒排索引系统,通过倒排索引系统提取出相关网页文档集以减少网页指纹对比次数。 本文最后以开源项目Nutch作为平台,通过修改源码和增加插件的方式在Nutch项目中添加了中文分词模块和相似重复网页去重模块,并对算法的效果进行了适当的测试。实验结果表明改进后的算法相比于SimHash算法,在准确率和召回率上都有一定程度的提升,并且通过倒排索系统减少了网页指纹对比次数,提高了算法的运行稳定度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号