首页> 中国专利> 一种健康体检大数据文本资料不合法词清洗的方法

一种健康体检大数据文本资料不合法词清洗的方法

摘要

本发明公开了一种健康体检大数据文本资料不合法词清洗的方法,该方法包括以下步骤:步骤1、通过收集原始的体检数据,通过人工标注及机器训练与挖掘,得到不同体检项目的不合法数据,建立文本资料不合法词库;步骤2、按照指定的数据结构输入待清洗的健康体检文本数据;步骤3、利用文本资料不合法词库对健康体检文本数据进行算法匹配,并判断是否为不合法形态;步骤4、利用算法将匹配的不合法词删除;步骤5、检查输出的健康体检文本数据是否正确;步骤6、对输出健康体检文本数据进行结果检查,并对文本资料不合法词库进行补充;步骤7、完成对不合法词的清洗。本发明提供了一种规范、合理的文本不合法词清洗的方法,算法精度高,计算效率高。

著录项

  • 公开/公告号CN112765964A

    专利类型发明专利

  • 公开/公告日2021-05-07

    原文格式PDF

  • 申请/专利权人 武汉大学;

    申请/专利号CN202110087779.5

  • 发明设计人 李红良;雷昉;杨慧琳;

    申请日2021-01-22

  • 分类号G06F40/247(20200101);G06F40/216(20200101);

  • 代理机构42102 湖北武汉永嘉专利代理有限公司;

  • 代理人刘琰

  • 地址 430072 湖北省武汉市武昌区八一路299号

  • 入库时间 2023-06-19 10:54:12

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-10-03

    授权

    发明专利权授予

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号