首页> 中国专利> 一种可扩展的新闻网站通用爬虫方法及系统

一种可扩展的新闻网站通用爬虫方法及系统

摘要

本发明涉及及计算机领域,尤其涉及一种可扩展的新闻网站通用爬虫方法及系统,方法包括:添加需要爬取的网站url以及相关配置;获取需要爬取的网站以及相关配置;对网址使用通用解析规则解析并返回解析效果,如果解析错误,则加入网站相应的xpath解析规则;对加入xpath解析规则的网站使用配置解析,其它网站使用默认解析规则;对解析结果进行存储。本发明对网址使用通用解析规则解析并返回解析效果,如果解析错误,则加入网站相应的xpath解析规则;对加入xpath解析规则的网站使用配置解析,其它网站使用默认解析规则,以实现对所有网站的爬取新闻解析都具有很高的正确率。

著录项

  • 公开/公告号CN111723265A

    专利类型发明专利

  • 公开/公告日2020-09-29

    原文格式PDF

  • 申请/专利权人 杭州叙简科技股份有限公司;

    申请/专利号CN202010617010.5

  • 发明设计人 赵粉玉;邱彦林;陈尚武;

    申请日2020-07-01

  • 分类号G06F16/951(20190101);

  • 代理机构33370 杭州浙言专利代理事务所(普通合伙);

  • 代理人易朝晖

  • 地址 311121 浙江省杭州市余杭区文一西路998号海创园5号楼706、707室

  • 入库时间 2023-06-19 08:25:29

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号