首页> 中文学位 >垂直搜索引擎中主题爬行技术的研究
【6h】

垂直搜索引擎中主题爬行技术的研究

代理获取

摘要

随着互联网技术的飞速发展,传统的通用搜索引擎逐渐暴露出了覆盖率低、结果不准确等弊端。为了满足用户精确搜索的需求,垂直搜索引擎应运而生。它利用主题爬行技术来搜集Web中与某个领域(主题)相关的网页,并提供面向该领域的检索服务。无疑,主题爬行技术是垂直搜索引擎的核心部分,直接影响着垂直搜索引擎的性能。本文重点研究了主题描述、候选链接优先级的预测和自适应的爬行策略等主题爬行中的关键技术,主要内容包括:
   (1)提出了一种基于维基百科的主题描述方法。对主题进行清晰、准确的描述是主题爬行器的基础,主题的描述方式也决定了主题相关性的计算方式。现有的算法多采用特征集来描述主题,并通过特征词的机械匹配来计算主题的相关性,它不仅忽视了特征词之间的语义关系,而且使得特征词分布过于稀疏,降低了对主题的描述性;也有一些方法引入了本体或语义词典来分析词语之间的语义关联,但现有的本体很少,而语义词典多存在着开放性差、词汇量有限、更新不及时的缺点。针对这些不足,本文将易于获取、更新及时、描述客观的维基百科作为背景知识,根据分类树来构建主题向量空间,并将主题描述文档映射成向量来描述主题,并且在相关性计算时引入了语义分析;同时,利用消歧参照表来解决词语映射到概念的过程中映射不符合实际或一词多义的问题。实验表明,该方法比传统方法在信息量总和及查准率上均有显著提高。
   (2)提出了一种基于网页分块的候选链接优先级的预测方法。候选链接的优先级预测决定了主题爬行的方向和结果,现有算法多根据页面内容、锚文本和锚文本上下文来预测候选链接的优先级,但页面中含有广告等噪音数据,锚文本上下文难以界定,锚文本包含的信息量也很有限。因此,本文首先基于深度优先遍历对网页进行分块,过滤掉了部分噪音节点,再从网页内容文本、块文本和锚文本三个方面综合预测候选链接的优先级。实验表明,引入网页分块有效改善了主题爬行的性能。
   (3)提出了基于信息增益和基于信息量总和比率的两种自适应方法。由于根据分类树的概念层次体系所获得的主题初始描述往往不够客观和准确,所以本文在每爬行一定数量的网页后,根据两种自适应方法对已爬行的所有网页自动学习并反馈更新主题向量空间中每个概念的权重,从而完善主题描述。实验表明,两者都实现了主题的增量爬行;引入基于信息增益的自适应方法后爬取的网页比引入基于信息量总和比率的自适应方法后爬取的网页与主题更加相关,而基于信息量总和比率的自适应方法在总体上则比基于信息增益的自适应方法有更高的稳定性。
   最后,设计并实现了一个主题爬行的原型系统,并利用该原型系统进行了一系列实验,对本文中提出的方法进行验证分析。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号