首页> 中国专利> 一种基于文档混合特征的文档相似度判定方法和装置

一种基于文档混合特征的文档相似度判定方法和装置

摘要

本发明公开了一种基于文档混合特征的文档相似度判定方法和装置,该方法包括以下步骤:对输入的文件或者数据流进行正则表达式匹配;如果匹配失败,则结束,如果匹配成功,对正则表达式匹配输出的多个特征字符串进行特征再处理;分别对特征再处理的多个结果进行链表管理,形成多个特征链表;对多个特征链表进行链表遍历和特征归并处理;输出相似度判定结果。通过本方案,大大提高结构化文档中表格数据的识别能力,可以大幅度条excel表格类型的文档相似度的判定能力,速度更快,容易理解,适合实际业务需要,为数据管控提供了坚实的技术能力。

著录项

  • 公开/公告号CN107656909B

    专利类型发明专利

  • 公开/公告日2021-06-01

    原文格式PDF

  • 申请/专利权人 北京明朝万达科技股份有限公司;

    申请/专利号CN201711041146.0

  • 发明设计人 魏效征;王志海;喻波;安鹏;

    申请日2017-10-30

  • 分类号G06F40/194(20200101);G06F40/30(20200101);

  • 代理机构

  • 代理人

  • 地址 100097 北京市海淀区蓝靛厂南路25号嘉友国际大厦北区2层

  • 入库时间 2022-08-23 11:53:35

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号