首页> 中文学位 >基于视觉的网页噪音识别与清除关键技术研究
【6h】

基于视觉的网页噪音识别与清除关键技术研究

代理获取

目录

声明

第1章 绪论

1.1 论文研究背景

1.2 论文研究的目的意义和研究内容

1.3 论文组织结构

第2章 相关理论基础及国内外研究现状

2.1 DOM模型

2.2 网页布局

2.3 Web挖掘及网页噪音清除研究现状

2.4 本章小结

第3章 基于改进VIPS的新型网页布局噪音识别算法

3.1 引言

3.2 基于视觉的VIPS算法

3.3 基于DIV_DOM模型的网页噪音识别算法

3.4 实验过程与结果分析

3.5 本章小结

第4章 基于视觉无感的网页噪音清除算法

4.1 引言

4.2 基于视觉无感的网页噪音清除算法

4.3 实验过程与结果分析

4.4 本章小结

结论

参考文献

致谢

展开▼

摘要

二十一世纪人类迈入了高度信息化时代,互联网的不断发展促使其成为了最为重要的信息传递途径之一,成为人们最广泛的信息来源。网页中很多与主题内容不相关的内容,通常称之为网页噪音信息。网页噪音通常围绕于主题内容的四周,占用网页正常的显示空间,使得Web页面的主题内容很不清晰。这会影响用户在进行网页浏览时候对主题内容的查找速度,也会导致浏览器加载过多的无关内容而产生时间的延迟。由此便引申出对网页噪音清除的相关研究和技术开发。网页噪音清除技术致力于将网页中原本混乱的结构、赘余的内容、错乱的排版显示以及不相关的无用信息进行结构化、清晰化、条理化,并且去除无用的信息。因此,提高识别和清除Web页面噪音清除技术,使网页主体内容更为清晰明确已经成为人们日益关注的焦点,Web页面噪音的有效识别以及去除已然成为了 Web挖掘中一个亟待解决的问题。
  本文主要介绍了 Web信息挖掘中重要的一个方面——网页噪音清除的研究价值及意义,并阐述了目前已有的网页噪音识别与清除技术上的优点和缺点。根据目前商业网页的设计以DIV+CSS为主要布局,提出了一种新的网页分割模型DIV_DOM模型。通过此模型,构建出基本DIV数据块,实现对整个 Web网页的逻辑划分。论文中还研究了基于此模型的网页噪音清除算法,此算法根据Web网页噪音的布局规律,总结其特点,并制定出噪音的评判标准,通过设置不同的权重值来评判不同页面数据块的重要性,识别和清除噪音数据块,保留主题数据块,实现对网页的净化。
  为了保证在对网页噪音信息的去除过程中用户的视觉无感性,本文还提出基于寻找相似数据块的视觉无感网页噪音过滤算法。该方法主要依赖于构建的 DIV_DOM模型,当DIV_DOM树中噪音数据块存在相似数据块或者相似节点时,去除噪音数据块是不会导致网页变形的。论文的最后是通过对各大主流的网站上进行实验测试,验证其效果及通用性。实验证明该方法具有良好的去除网页噪音效果,并保证网页的视觉无感,同时该算法也具有比较广泛的适用性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号