搜索引擎中网页分类和网页净化的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着社会的进步和科技的飞速发展，人们的生活已经越来越离不开网络了，为了满足人们日益增长的需求，海量的网页信息也随之产生了，如何从这些海量的信息中找到人们所需要的信息变得越来越困难，搜索引擎正是为了解决这一难题而产生的。
　　用户浏览的网页可以从内容展现形式上分为目录型网页(hub)、主题型网页(topic)和图片型网页(picture)这三类，现在将视频型网页也归类为图片型网页。这三种类型的网页在展现形式上的差异，直接影响到信息提取的方法也有所不同，对于目录型网页，主要是提取中间的链接信息;而对于主题型网页则是提取主题内容;图片型网页则主要是图片和视频。如何能对网页进行快速、准确的分类是搜索引擎在预处理阶段必须完成的工作。现在的网页在分类上呈现出模糊化，许多目录型的网页中间包含着大量的说明性文字，使其看起来跟主题型网页又有几分类似，这对网页分类又是一个巨大的挑战。
　　搜索引擎在预处理阶段最主要的目的是信息提取，由于网页是一种半结构化的数据，在信息的提取过程中充满着各种挑战。为了页面的内容丰富、布局美观还有商业因素的惨杂，使得网页一般都包含着无用的链接、广告信息、版权信息等。这些信息严重影响到了网页内容提取的准确度，进而影响到了返回给用户检索结果的准确性，因此在进行信息的提取过程中必须进行去噪处理。
　　如何提高搜索引擎的搜索质量和搜索效率一直都是人们不断研究和努力的方向，本文正是在研究搜索引擎的预处理过程中，着重研究了网页分类和网页净化这两点，研究的主要内容有:
　　 (1)提出并实现了一种网页分类的方法，该算法主要是对目录型和主题型的网页进行分类，通过一组多特征的启发式的规则去甄别网页的类型，实验证明该算法在网页分类上具有良好的效果。
　　 (2)采用网页进行分块的思想，通过观察统计网页的主题内容的特点，提出了通过计算该结构块对整个网页类型的支持率来判断该块是否为主题块，同时针对不规范的网页中主题内容离散的特点，针对性的采用了文本间相似度比较来判断该块是否为主题块，实验证明该算法是有效的。

著录项

作者
曹桂锋;
展开▼
作者单位

武汉理工大学;

展开▼
授予单位武汉理工大学;
学科计算机应用技术
授予学位硕士
导师姓名胡燕;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.092;
关键词
主题型网页; 网页净化; 搜索引擎; 预处理阶段;

相似文献

中文文献
外文文献
专利

1. 主题搜索引擎中的高效网页分类器构建方法 [J] . 李兆锋 . 科技通报 . 2013,第8期
2. 搜索引擎搜索结果中文网页分类系统 [J] . 周莹 . 科教文汇 . 2007,第013期
3. 搜索引擎搜索结果中文网页分类系统 [J] . 周莹 . 科教文汇 . 2007,第05S期
4. 中文网页分类的研究与实现 [J] . 程传鹏 . 中原工学院学报 . 2007,第001期
5. 中文网页分类中的网页特征提取方法 [J] . 江祥奎 ,原思聪 . 电脑开发与应用 . 2005,第010期
6. 维数约简在网页分类中的应用 [C] . 万中英 ,王明文 ,廖海波 . 第一届全国信息检索与内容安全学术会议 . 2004
7. 企业搜索引擎中网页分类技术的研究与实现 [A] . 刘兰哲 . 2008

搜索引擎中网页分类和网页净化的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅