【24h】

Wrapping PDF Documents Exploiting Uncertain Knowledge

机译:包装PDF文档以利用不确定的知识

获取原文
获取原文并翻译 | 示例

摘要

The PDF format represents the de facto standard for print-oriented documents. In this paper we address the problem of wrapping PDF documents, which raises new challenges in the information extraction field. The proposal is based on a novel bottom-up wrapping approach to extract information tokens and integrate them into groups related according to the logical structure of a document. A PDF wrapper is defined by specifying a set of group type definitions which impose a target structure to token groups containing the required information. Due to the intrinsic uncertainty on the structure and presentation of PDF documents, we devise constraints on token groupings as fuzzy logic conditions. We define a formal semantics for PDF wrappers and propose an algorithm for wrapper evaluation working in polynomial time with respect to the size of a PDF document.
机译:PDF格式代表了面向打印文档的事实上的标准。在本文中,我们解决了包装PDF文档的问题,这在信息提取领域提出了新的挑战。该提案基于一种新颖的自下而上的包装方法,可以提取信息令牌并将其根据文档的逻辑结构集成到相关的组中。通过指定一组组类型定义来定义PDF包装器,这些组类型定义将目标结构强加给包含所需信息的令牌组。由于PDF文档的结构和表示方式存在内在的不确定性,因此我们将令牌分组的约束设计为模糊逻辑条件。我们为PDF包装器定义了一种形式化语义,并针对PDF文档的大小,提出了一种在多项式时间内对包装器进行评估的算法。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号