首页> 中国专利> 一种基于正文节点特征的提取网页正文的方法和系统

一种基于正文节点特征的提取网页正文的方法和系统

摘要

本发明公开了一种基于正文节点特征的提取网页正文的方法和系统,属于互联网技术领域。本发明方法包括:获取待提取网页的HTML源代码;对HTML源代码进行过滤并提取出HTML源代码HTML DOM树中元素关键节点,针对元素关键节点构建列表;获取每个元素关键节点的节点值为正文节点属性值的概率并进行排序;按正文节点属性值的概率的顺序对元素关键节点进行正文元素提取,确定待判断网页正文为网页正文。本发明在网页正文提取过程中,考虑到HTML网页DOM树元素的属性节点对标记正文节点的重要作用,将网页节点关键属性值id和class与正文节点属性值特征对比,准确找出正文节点值,结合HTML解析器技术准确抽取正文。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-03-24

    实质审查的生效 IPC(主分类):G06F16/951 申请日:20190930

    实质审查的生效

  • 2020-02-28

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号