首页> 中国专利> 面向国网云架构的HTML数据的自动分类方法

面向国网云架构的HTML数据的自动分类方法

摘要

本发明涉及面向国网云架构的HTML数据的自动分类方法,该方法包括如下步骤:基于Scrapy框架采集国网云平台半结构化HTML信息;存储电力网页半结构化HTML文本数据;对半结构化HTML文本数据进行预处理;基于BiGRU对半结构化电力文本数据进行特征提取;利用TF‑IDF算法对提取的电力信息特征进行加权,根据权重获得待分类的特征向量;构建贝叶斯分类器,将获得的特征向量输入贝叶斯分类器中进行训练,根据输出概率的大小,得出最后的分类结果;本发明针对国网云架构下半结构化HTML文本数据分类具有较高的准确度,训练用时短。

著录项

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号