首页> 中文学位 >搜索引擎中网页分类和网页净化的研究与实现
【6h】

搜索引擎中网页分类和网页净化的研究与实现

代理获取

目录

声明

摘要

第1章 绪论

1.1 课题背景及研究意义

1.2 国内外研究现状

1.2.1 传统网页分类方法

1.2.2 传统网页去噪技术

1.3 论文的提出

1.4 课题研究内容以及组织结构

1.4.1 研究内容

1.4.2 组织结构

1.5 本章小结

第2章 基于多特征的网页分类

2.1 WEB网页的结构和处理方法

2.1.1 WEB网页的结构特点

2.1.2 DOM树

2.2 WEB网页分类和特点分析

2.2.1 目录型网页

2.2.2 主题型网页

2.2.3 图片型网页

2.3 基于多特征的网页分类

2.3.1 主题特征的发现

2.3.2 主题特征的量化

2.3.3 网页分类算法的设计

2.4 基于多特征的网页分类的实现

2.4.1 实验环境

2.4.2 开源类库的使用

2.4.3 基于多特征网页分类算法中函数方法设计

2.5 实验结果及分析

2.6 本章小结

第3章 基于分块的网页净化

3.1 网页净化综述

3.2 网页分块的构建

3.3 基于分块的网页净化算法的设计

3.4 基于分块的网页净化算法的实现

3.5 实验结果及分析

3.6 本章小结

第4章 基于文本相似性比较的网页净化

4.1 文本相似度比较方法的选取

4.1.1 向量空间模型

4.1.2 字符串相似度

4.1.3 向量空间模型的选取

4.2 关键词权值的选取

4.3 基于文本间相似度的网页净化算法的设计

4.4 基于文本间相似度的网页净化算法的实现

4.5 实验结果与分析

4.6 本章小结

第5章 总结与展望

5.1 总结

5.2 展望

致谢

参考文献

展开▼

摘要

随着社会的进步和科技的飞速发展,人们的生活已经越来越离不开网络了,为了满足人们日益增长的需求,海量的网页信息也随之产生了,如何从这些海量的信息中找到人们所需要的信息变得越来越困难,搜索引擎正是为了解决这一难题而产生的。
   用户浏览的网页可以从内容展现形式上分为目录型网页(hub)、主题型网页(topic)和图片型网页(picture)这三类,现在将视频型网页也归类为图片型网页。这三种类型的网页在展现形式上的差异,直接影响到信息提取的方法也有所不同,对于目录型网页,主要是提取中间的链接信息;而对于主题型网页则是提取主题内容;图片型网页则主要是图片和视频。如何能对网页进行快速、准确的分类是搜索引擎在预处理阶段必须完成的工作。现在的网页在分类上呈现出模糊化,许多目录型的网页中间包含着大量的说明性文字,使其看起来跟主题型网页又有几分类似,这对网页分类又是一个巨大的挑战。
   搜索引擎在预处理阶段最主要的目的是信息提取,由于网页是一种半结构化的数据,在信息的提取过程中充满着各种挑战。为了页面的内容丰富、布局美观还有商业因素的惨杂,使得网页一般都包含着无用的链接、广告信息、版权信息等。这些信息严重影响到了网页内容提取的准确度,进而影响到了返回给用户检索结果的准确性,因此在进行信息的提取过程中必须进行去噪处理。
   如何提高搜索引擎的搜索质量和搜索效率一直都是人们不断研究和努力的方向,本文正是在研究搜索引擎的预处理过程中,着重研究了网页分类和网页净化这两点,研究的主要内容有:
   (1)提出并实现了一种网页分类的方法,该算法主要是对目录型和主题型的网页进行分类,通过一组多特征的启发式的规则去甄别网页的类型,实验证明该算法在网页分类上具有良好的效果。
   (2)采用网页进行分块的思想,通过观察统计网页的主题内容的特点,提出了通过计算该结构块对整个网页类型的支持率来判断该块是否为主题块,同时针对不规范的网页中主题内容离散的特点,针对性的采用了文本间相似度比较来判断该块是否为主题块,实验证明该算法是有效的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号