垂直搜索引擎中主题爬行技术的研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

随着互联网技术的飞速发展，传统的通用搜索引擎逐渐暴露出了覆盖率低、结果不准确等弊端。为了满足用户精确搜索的需求，垂直搜索引擎应运而生。它利用主题爬行技术来搜集Web中与某个领域(主题)相关的网页，并提供面向该领域的检索服务。无疑，主题爬行技术是垂直搜索引擎的核心部分，直接影响着垂直搜索引擎的性能。本文重点研究了主题描述、候选链接优先级的预测和自适应的爬行策略等主题爬行中的关键技术，主要内容包括：
　　 (1)提出了一种基于维基百科的主题描述方法。对主题进行清晰、准确的描述是主题爬行器的基础，主题的描述方式也决定了主题相关性的计算方式。现有的算法多采用特征集来描述主题，并通过特征词的机械匹配来计算主题的相关性，它不仅忽视了特征词之间的语义关系，而且使得特征词分布过于稀疏，降低了对主题的描述性；也有一些方法引入了本体或语义词典来分析词语之间的语义关联，但现有的本体很少，而语义词典多存在着开放性差、词汇量有限、更新不及时的缺点。针对这些不足，本文将易于获取、更新及时、描述客观的维基百科作为背景知识，根据分类树来构建主题向量空间，并将主题描述文档映射成向量来描述主题，并且在相关性计算时引入了语义分析；同时，利用消歧参照表来解决词语映射到概念的过程中映射不符合实际或一词多义的问题。实验表明，该方法比传统方法在信息量总和及查准率上均有显著提高。
　　 (2)提出了一种基于网页分块的候选链接优先级的预测方法。候选链接的优先级预测决定了主题爬行的方向和结果，现有算法多根据页面内容、锚文本和锚文本上下文来预测候选链接的优先级，但页面中含有广告等噪音数据，锚文本上下文难以界定，锚文本包含的信息量也很有限。因此，本文首先基于深度优先遍历对网页进行分块，过滤掉了部分噪音节点，再从网页内容文本、块文本和锚文本三个方面综合预测候选链接的优先级。实验表明，引入网页分块有效改善了主题爬行的性能。
　　 (3)提出了基于信息增益和基于信息量总和比率的两种自适应方法。由于根据分类树的概念层次体系所获得的主题初始描述往往不够客观和准确，所以本文在每爬行一定数量的网页后，根据两种自适应方法对已爬行的所有网页自动学习并反馈更新主题向量空间中每个概念的权重，从而完善主题描述。实验表明，两者都实现了主题的增量爬行；引入基于信息增益的自适应方法后爬取的网页比引入基于信息量总和比率的自适应方法后爬取的网页与主题更加相关，而基于信息量总和比率的自适应方法在总体上则比基于信息增益的自适应方法有更高的稳定性。
　　最后，设计并实现了一个主题爬行的原型系统，并利用该原型系统进行了一系列实验，对本文中提出的方法进行验证分析。

著录项

作者
史艳;
展开▼
作者单位

重庆大学;

展开▼
授予单位重庆大学;
学科计算机系统结构
授予学位硕士
导师姓名熊忠阳;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.09;TP273.2;
关键词
主题爬行; 垂直搜索引擎; 维基百科; 主题描述; 网页分块; 自适应策略;

相似文献

中文文献
外文文献
专利

1. 基于HMM的主题垂直搜索引擎技术研究 [J] . 张弛 . 自动化技术与应用 . 2014,第010期
2. 农业主题垂直搜索引擎过滤技术研究 [J] . 兰富军 ,李春霆 ,高海忠 . 安徽农业科学 . 2010,第009期
3. 基于遗传算法的主题爬行技术研究 [J] . 关慧芬 ,师军 ,马继红 . 计算机与数字工程 . 2008,第010期
4. 垂直搜索引擎技术在不良网站发现中的应用研究 [J] . 罗秀春 ,石现升 ,郝智超 . 计算机安全 . 2012,第012期
5. 仿生爬行机器人研究中的关键技术 [J] . 张颖 ,朱兴龙 . 徐州工程学院学报（自然科学版） . 2009,第003期
6. 基于遗传算法的主题爬行技术研究 [C] . . 2008年全国理论计算机科学学术年会 . 2008
7. 垂直搜索引擎中主题网络蜘蛛爬行技术的研究 [A] . 陈小海 . 2009

垂直搜索引擎中主题爬行技术的研究

摘要

著录项

相似文献

相关主题

期刊订阅