首页> 外国专利> Method and apparatus for document image indexing and retrieval using multi-level document image structure and local features

Method and apparatus for document image indexing and retrieval using multi-level document image structure and local features

机译:使用多层文档图像结构和局部特征进行文档图像索引和检索的方法和装置

摘要

An image based document index and retrieval method is described. During document indexing, each source document is analyzed to generate index information at document, page, region and unit levels. Region and unit level index information is generated by segmenting each text region into units, constructing unit length or unit density histograms, and analyzing the units in a few most frequent bins of the histogram. The index information and the source document images are stored in a database. During document retrieval, a target document is analyzed to generate target index information in the same way as during document indexing. The target index information is compared to stored index information in a progressive manner (from higher to lower levels) to identify source documents with index information that matches the target index information. Fuzzy logic is used in the comparison steps to increase the robustness of the document retrieval.
机译:描述了基于图像的文档索引和检索方法。在文档编制索引期间,将对每个源文档进行分析,以在文档,页面,区域和单位级别生成索引信息。通过将每个文本区域划分为多个单元,构造单元长度或单元密度直方图,并分析直方图的一些最频繁的bin中的单元,可以生成区域和单元级别索引信息。索引信息和源文档图像存储在数据库中。在文档检索期间,以与文档索引编制过程相同的方式分析目标文档以生成目标索引信息。将目标索引信息与存储的索引信息进行逐步比较(从上到下),以标识具有与目标索引信息匹配的索引信息的源文档。在比较步骤中使用模糊逻辑来增加文档检索的鲁棒性。

著录项

  • 公开/公告号US8687886B2

    专利类型

  • 公开/公告日2014-04-01

    原文格式PDF

  • 申请/专利权人 YIBIN TIAN;

    申请/专利号US201113340513

  • 发明设计人 YIBIN TIAN;

    申请日2011-12-29

  • 分类号G06K9/00;

  • 国家 US

  • 入库时间 2022-08-21 16:00:03

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号