首页> 中国专利> 面向国网云架构的HTML数据的自动分类方法

面向国网云架构的HTML数据的自动分类方法

页面导航

摘要
著录项
相似文献

摘要

本发明涉及面向国网云架构的HTML数据的自动分类方法，该方法包括如下步骤：基于Scrapy框架采集国网云平台半结构化HTML信息；存储电力网页半结构化HTML文本数据；对半结构化HTML文本数据进行预处理；基于BiGRU对半结构化电力文本数据进行特征提取；利用TF‑IDF算法对提取的电力信息特征进行加权，根据权重获得待分类的特征向量；构建贝叶斯分类器，将获得的特征向量输入贝叶斯分类器中进行训练，根据输出概率的大小，得出最后的分类结果；本发明针对国网云架构下半结构化HTML文本数据分类具有较高的准确度，训练用时短。

著录项

公开/公告号CN113987185A

专利类型发明专利
公开/公告日2022-01-28

原文格式PDF
申请/专利权人国网天津市电力公司;国家电网有限公司;
展开▼

申请/专利号CN202111294505.X
发明设计人张恩杰;张志东;李聪利;杨滨;闫龙;陈雪振;王斌;李达;乐坤;黄红军;宫博仁;
展开▼

申请日2021-11-03
分类号G06F16/35(20190101);G06F16/951(20190101);G06F16/955(20190101);G06F40/216(20200101);G06F40/284(20200101);G06F40/289(20200101);G06K9/62(20220101);
代理机构12108 天津才智专利商标代理有限公司;
代理人张文华
地址 300010 天津市河北区五经路39号
入库时间 2023-06-19 14:01:55

相似文献

专利
中文文献
外文文献

1. 面向国网云架构的HTML数据的自动分类方法 [P] . 中国专利： CN113987185A . 2022-01-28
2. 面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法 [P] . 中国专利： CN104102718A . 2014-10-15
3. Method for automatic generation of documentation file e.g. HTML file, relative to high performance computing cluster, involves aggregating documentation data and complementary documentation data of equipment to form documentation file [P] . 法国专利： FR2978576A1 . 2013-02-01

机译：自动生成文档文件的方法相对于高性能计算集群，HTML文件涉及聚集设备的文档数据和补充文档数据以形成文档文件
4. Automatic goods storage method for automatic warehouse involves comparing object oriented data from items in stock piles with data from stock management computer to locate item [P] . 德国专利： DE102004035819A1 . 2006-02-16

机译：用于自动仓库的自动货物存储方法涉及将来自堆垛中的物品的面向对象的数据与来自库存管理计算机的数据进行比较以定位物品
5. Automated HTML test page and test data generation for javascript objects [P] . 美国专利： US6620204B1 . 2003-09-16

机译：自动化的HTML测试页和javascript对象的测试数据生成