首页> 中国专利> 一种基于字典树的中文未登录词识别方法

一种基于字典树的中文未登录词识别方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种基于字典树的中文未登录词识别方法，包括以下步骤：步骤一：将文本输入，将一些标点符号等问题进行去除，建立中文文本库；步骤二：将文本库构造成字典树，在这个任务中需要构造两颗Trie树，表示正向和反向两个字符字段集；步骤三：计算词语左右信息熵的最小值,与信息熵阈值进行比较，保留可能成词的候选词；步骤四：计算词语互信息，与互信息阈值进行比较，将大于互信息阈值的词保留；步骤五：将之前保留的词语和词典进行比较，将原词典中没有的词加入作为词典的一部分，消除未登录词。有益效果：本发明不需预先通过词典进行分词，字典树的时间复杂度和存储字符串的数据量无关只与查询的字符串长度有关，在一定程度上能加速算法。

著录项

公开/公告号CN110929510A

专利类型发明专利
公开/公告日2020-03-27

原文格式PDF
申请/专利权人上海晏鼠计算机技术股份有限公司;
展开▼

申请/专利号CN201911196602.8
发明设计人陈刚;
展开▼

申请日2019-11-29
分类号
代理机构
代理人
地址 200082 上海市杨浦区国定路335号3201-3室
入库时间 2023-12-17 07:30:11

法律信息

法律状态公告日

法律状态信息

法律状态
2020-07-24

实质审查的生效 IPC(主分类):G06F40/284 申请日:20191129

实质审查的生效
2020-03-27

公开

公开

相似文献

专利
中文文献
外文文献

1. 一种基于字典树的中文未登录词识别方法 [P] . 中国专利： CN110929510A . 2020-03-27
2. 一种基于统计规律的中文词汇表未登录词比率的估计方法 [P] . 中国专利： CN108109624A . 2018-06-01
3. A Text Line Recognition Method in Chinese Scenes Based on Residual Convolutional and Recurrent Neural Networks [P] . AU2020101229A4 . 2020-08-06

机译：基于残差卷积和递归神经网络的中文场景文本行识别方法
4. A METHOD OF REAL TIME VEHICLE RECOGNITION WITH NEUROMORPHIC COMPUTING NETWORK FOR AUTONOMOUS DRIVING [P] . 世界知识产权组织专利： WO2020023518A1 . 2020-01-30

机译：一种基于神经网络的实时驾驶车辆自动驾驶识别方法
5. GPES ISMF EMG An EMG Signal-Based Gait Phase Recognition Method Using a GPES library and ISMF [P] . 韩国专利： KR101829356B1 . 2018-02-19

机译： GPES ISMF EMG一种使用GPES库和ISMF的基于EMG信号的步态相位识别方法