首页> 中国专利> 一种面向网络新媒体的页面链接去重扫描方法及装置

一种面向网络新媒体的页面链接去重扫描方法及装置

摘要

本发明提出了一种面向网络新媒体的页面链接去重扫描方法及装置,该方法包括:对目标网站URL进行字段拆解处理;对拆解得到的字段进行分段处理,基于分段处理的结果生成链接特征值;将生成的链接特征值与链接特征库存储的特征值进行比较,以判断出目标网站URL是否为重复URL。本发明克服了现有技术对网站URL生成特征值并与已有特征值进行比较实现URL重复扫描效率低、工作强度大的缺陷,可以实现快速URL去重扫描,提高去重准确率,降低工作强度。

著录项

  • 公开/公告号CN106919570B

    专利类型发明专利

  • 公开/公告日2020-12-22

    原文格式PDF

  • 申请/专利号CN201510983177.2

  • 发明设计人 何晶;尹亚光;张伟;施玉海;

    申请日2015-12-24

  • 分类号G06F16/955(20190101);

  • 代理机构11010 工业和信息化部电子专利中心;

  • 代理人梁军

  • 地址 100866 北京市西城区复兴门外大街2号

  • 入库时间 2022-08-23 11:25:51

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号