首页> 中文会议>第四届全国信息检索与内容安全学术会议 >面向主题爬取的多粒度URLs优先级计算方法

面向主题爬取的多粒度URLs优先级计算方法

摘要

垂直检索系统中主题爬虫的性能对整个系统至关重要.在设计主题爬虫时需要解决两个科学计算问题:一是计算当前页面与给定主题的相关度,二是计算待爬取URLs的访问优先级.对第一个问题,本文给出利用页面的主题文本块和相关链接块的相关度计算方法:对第二个问题,给出基于主题上下文和四种不同的粒度(即站点级、页面级、块级和链接级)的优先级计算方法.在此基础上,提出基于上述方法的主题爬取算法.实验证明,新算法在不增加时间复杂度的前提下,在查准率和信息量总和方面明显优于其他三种经典的爬取算法.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号