首页> 中国专利> 一种基于正文节点特征的提取网页正文的方法和系统

一种基于正文节点特征的提取网页正文的方法和系统

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种基于正文节点特征的提取网页正文的方法和系统，属于互联网技术领域。本发明方法包括：获取待提取网页的HTML源代码；对HTML源代码进行过滤并提取出HTML源代码HTML DOM树中元素关键节点，针对元素关键节点构建列表；获取每个元素关键节点的节点值为正文节点属性值的概率并进行排序；按正文节点属性值的概率的顺序对元素关键节点进行正文元素提取，确定待判断网页正文为网页正文。本发明在网页正文提取过程中，考虑到HTML网页DOM树元素的属性节点对标记正文节点的重要作用，将网页节点关键属性值id和class与正文节点属性值特征对比，准确找出正文节点值，结合HTML解析器技术准确抽取正文。

著录项

公开/公告号CN110851679A

专利类型发明专利
公开/公告日2020-02-28

原文格式PDF
申请/专利权人中国海洋大学;青岛海洋科学与技术国家实验室发展中心;
展开▼

申请/专利号CN201910947241.X
发明设计人杨永全;翟世平;魏志强;
展开▼

申请日2019-09-30
分类号
代理机构北京工信联合知识产权代理有限公司;
代理人姜丽楼
地址 266100 山东省青岛市崂山区松岭路238号
入库时间 2023-12-17 06:55:54

法律信息

法律状态公告日

法律状态信息

法律状态
2020-03-24

实质审查的生效 IPC(主分类):G06F16/951 申请日:20190930

实质审查的生效
2020-02-28

公开

公开

相似文献

专利
中文文献
外文文献

1. 一种基于正文节点特征的提取网页正文的方法和系统 [P] . 中国专利： CN110851679A . 2020-02-28
2. 一种基于文字分布特征的网页正文提取方法 [P] . 中国专利： CN102915361A . 2013-02-06
3. Method and apparatus for extracting body on web page [P] . 美国专利： US9678932B2 . 2017-06-13

机译：在网页上提取正文的方法和装置
4. Method, Server and Device for extracting a Body and a title of a Content of a Web page. [P] . AR097694A1 . 2016-04-06

机译：提取网页内容的正文和标题的方法，服务器和设备。
5. Method and apparatus for extracting body on web page [P] . 欧洲知识产权局专利： EP2639717A3 . 2015-05-13

机译：在网页上提取正文的方法和装置