首页> 中国专利> 一种面向政府领域新词自动发现的实现方法、分析模型及其系统

一种面向政府领域新词自动发现的实现方法、分析模型及其系统

摘要

本发明提供一种面向政府领域新词自动发现的实现方法、分析模型及其系统,所述方法包括:对网络信息去除杂数据后得到纯文本,通过HanLP分词器对纯文本进行分词获得带有词性的单词集合,对单词集合进行常用词、垃圾词的初步过滤,对过滤结果进行单词多元匹配形成组合词汇,根据组合规则判断词性,运用TF/IDF算法统计词频得到加权分数,根据分数进行筛选和专家鉴定形成最优规则,系统依据最优规则进行循环训练和全文模式匹配后输出目标结果得到分析模型。本技术将多元匹配规则、智能过滤、加权统计、规则判断和专家鉴定技术相融合,收录大量专业词典,借鉴语言学家研究成果,形成了最优的分析模型从而输出新的词汇,有效提高了新词发现效率和新词识别的准确性,同时可查询到具有更高语义专指度的复合词,提升了政府网站新词发现的专业度和准确性。

著录项

  • 公开/公告号CN111476025B

    专利类型发明专利

  • 公开/公告日2021-01-08

    原文格式PDF

  • 申请/专利号CN202010133406.2

  • 发明设计人 汪敏;严妍;刘鹏飞;尹娜;

    申请日2020-02-28

  • 分类号G06F40/284(20200101);G06F40/247(20200101);G06F16/951(20190101);G06Q50/26(20120101);

  • 代理机构11467 北京德崇智捷知识产权代理有限公司;

  • 代理人王欣

  • 地址 523000 广东省东莞市石龙镇中山东东升路1号汇星商业中心5栋2单元1805室

  • 入库时间 2022-08-23 11:28:30

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号