首页> 中国专利> 基于词向量表征的网页新词发现和解析方法

基于词向量表征的网页新词发现和解析方法

摘要

本发明公开的一种基于词向量表征的网页新词发现和解析方法,包括以下步骤:步骤1,网页原始数据预处理,得到预训练文本;步骤2,首先进行粗略分词处理,然后使用N‑gram模型来分别构建2‑gram、3‑gram的前缀字典树;步骤3,使用内部结合度多字互信息来度量候选词串的内部结合度;步骤4,使用左右邻接熵信息度量来确定上一步骤中的候选新词的边界;步骤5,利用余弦相似度原理来进行相似向量筛选进而扩充初始关键词词典;步骤6,解析待处理网页中的数据,把网页中的非结构化数据转存到一个预先设置的结构化数组列表里;步骤7,通过步关键词词典对结构化列表里的数据进行提取和整合,完成解析过程。

著录项

  • 公开/公告号CN114169325A

    专利类型发明专利

  • 公开/公告日2022-03-11

    原文格式PDF

  • 申请/专利权人 西安理工大学;

    申请/专利号CN202111444046.9

  • 发明设计人 魏嵬;刘维;张贝贝;

    申请日2021-11-30

  • 分类号G06F40/289(20200101);G06F40/242(20200101);G06F40/237(20200101);G06F40/216(20200101);G06F40/205(20200101);G06F16/33(20190101);G06F16/35(20190101);

  • 代理机构61214 西安弘理专利事务所;

  • 代理人王奇

  • 地址 710048 陕西省西安市碑林区金花南路5号

  • 入库时间 2023-06-19 14:28:14

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-03-11

    公开

    发明专利申请公布

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号