基于关键词的搜索引擎网页去重算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

互联网的飞速发展使得互联网的数据得到了指数级增长。与报纸、电视和广播这些传统的传输媒体相比，互联网更加高效实时、经济直观，并极具开放性，是新一代的大众传媒。互联网上的信息纷繁复杂，并存在大量的相似重复网页信息。这些相似重复网页信息不但给网络用户带来了相当大的困扰，增加了搜索目标信息的难度;也降低了竞争情报系统和搜索引擎的网页信息采集分析工作的效率。因此，关于相似重复网页去重技术的研究是一个极具实际意义的研究课题。本文在分析了当前相似网页去重技术的基础上，详细阐述了网页去重技术的整体流程，包括网页预处理、网页特征提取和相似性判断等，网页预处理包括网页格式正规化处理和网页主题内容提取。提取网页主题内容需先构建DOM文档结构树，然后去除图片、表单和网页脚本等噪声节点，最后定位候选子树节点和进行噪声指数计算。在相似网页去重算法上，以SimHash算法为基础进行适当的改进，为更准确地表征网页主题内容，在进行网页分词和去除停用词与无意义词后，采用单步前进制的单词序列作为网页特征项，融入了单词与单词的相互位置关系。为降低算法的时间空间复杂度，在进行网页特征项的权重计算的同时，提取出适当数量的网页关键词构建倒排索引系统，通过倒排索引系统提取出相关网页文档集以减少网页指纹对比次数。本文最后以开源项目Nutch作为平台，通过修改源码和增加插件的方式在Nutch项目中添加了中文分词模块和相似重复网页去重模块，并对算法的效果进行了适当的测试。实验结果表明改进后的算法相比于SimHash算法，在准确率和召回率上都有一定程度的提升，并且通过倒排索系统减少了网页指纹对比次数，提高了算法的运行稳定度。

著录项

作者
贺知义;
展开▼
作者单位

华中师范大学;

展开▼
授予单位华中师范大学;
学科计算机系统结构
授予学位硕士
导师姓名葛非;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;图书馆学、图书馆事业;
关键词
关键词; 搜索引擎; 网页去重;

相似文献

中文文献
外文文献
专利

1. 基于专业搜索引擎的网页去重技术研究 [J] . 张艳 . 软件导刊 . 2012,第004期
2. 基于专业搜索引擎的网页去重技术研究 [J] . 张艳 . 软件导刊 . 2012,第004期
3. 基于用户查询关键词的网页去重方法研究 [J] . 谢蕙 ,秦杰 ,胡双双 . 现代图书情报技术 . 2008,第007期
4. 基于关键长句及正文长度预分类的网页去重算法研究 [J] . 周杨 . 软件导刊 . 2012,第010期
5. 基于关键长句及正文长度预分类的网页去重算法研究 [J] . 周杨 . 软件导刊 . 2012,第010期
6. 基于新闻网页主题要素的网页去重方法研究 [C] . 王鹏 ,张永奎 . 中国中文信息学会二十五周年学术会议 . 2006
7. 基于网页正文结构树的近似网页去重算法研究 [A] . 牙漫 . 2013

基于关键词的搜索引擎网页去重算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅