首页> 中国专利> 一种基于深度学习融合文本和结构特征的网页分类方法

一种基于深度学习融合文本和结构特征的网页分类方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明提供一种基于深度学习融合文本和结构特征的网页分类方法，首先用爬虫获得网页的HTML(HyperText Markup Language)文档，提取标题、meta、超链接等关键文本信息，并将文本词汇转化为向量(word2vec)，表示文本特征；然后遍历HTML标签，并转化为向量，表示网页结构特征；最后将向量输入长短期记忆网络(LSTM)中，通过神经网络将异构的网页文本特征和网页结构特征融合起来训练模型，进行分类。该方法综合有区分度的特征更全面地表示网页，提高分类准确率。

著录项

公开/公告号CN108984706A

专利类型发明专利
公开/公告日2018-12-11

原文格式PDF
申请/专利权人浙江大学;
展开▼

申请/专利号CN201810737086.4
发明设计人沈继忠;邓立;杜歆;
展开▼

申请日2018-07-06
分类号G06F17/30(20060101);
代理机构33200 杭州求是专利事务所有限公司;
代理人邱启旺
地址 310058 浙江省杭州市西湖区余杭塘路866号
入库时间 2023-06-19 07:35:41

法律信息

法律状态公告日

法律状态信息

法律状态
2019-01-04

实质审查的生效 IPC(主分类):G06F17/30 申请日:20180706

实质审查的生效
2018-12-11

公开

公开

相似文献

专利
中文文献
外文文献

1. 一种基于深度学习融合文本和结构特征的网页分类方法 [P] . 中国专利： CN108984706A . 2018-12-11
2. 一种基于深度学习和特征融合的文本情感分类方法 [P] . 中国专利： CN110750648A . 2020-02-04
3. METHOD AND DEVICE FOR RADAR TARGET CLASSIFICATION USING FUSION OF COMPLEX NATURAL RESONANCE FREQUENCY-BASED FEATURE AND WAVEFORM STRUCTURE-BASED FEATURE [P] . 韩国专利： KR101851636B1 . 2018-06-07

机译：融合复杂共振频率特征和波形结构特征的雷达目标分类方法和装置
4. Internet page text contents controlling software, has instructions to find and retrieve web pages of domain, and check and compare contents based on preset list, which can contain illegal or undesirable terms, texts, data and/or expressions [P] . 德国专利： DE102005030126A1 . 2007-01-25

机译：互联网页面文本内容控制软件，具有查找和检索域的网页以及基于预设列表检查和比较内容的指令，该预设列表可能包含非法或不受欢迎的术语，文本，数据和/或表达式
5. Web contents e.g. texts, printing method, involves browsing source code after logic interconnections with web pages, and analyzing logic interconnections with web pages with respect to printing version of contents of called web page [P] . 德国专利： DE102009023748A1 . 2010-12-09

机译：网页内容，例如文本，一种打印方法，涉及在与网页进行逻辑互连之后浏览源代码，并就打印被调用网页的内容版本来分析与网页的逻辑互连。