首页> 外文会议>Indian International Conference on Artificial Intelligence >pdf2table: A Method to Extract Table Information from PDF Files
【24h】

pdf2table: A Method to Extract Table Information from PDF Files

机译:pdf2table:一种从PDF文件中提取表信息的方法

获取原文

摘要

Tables are a common structuring element in many documents, such as PDF files. To reuse such tables, appropriate methods need to be develop, which capture the structure and the content information. We have developed several heuristics which together recognize and decompose tables in PDF files and store the extracted data in a structured data format (XML) for easier reuse. Additionally, we implemented a prototype, which gives the user the ability of making adjustments on the extracted data. Our work shows that purely heuristic-based approaches can achieve good results, especially for lucid tables.
机译:表是许多文档中的常见结构元素,例如PDF文件。要重用此类表,需要开发适当的方法,该方法捕获结构和内容信息。我们开发了几种启发式机器,在一起在PDF文件中识别和分解表,并以结构化的数据格式(XML)存储提取的数据,以便于重用。此外,我们实现了一种原型,它为用户提供了对提取数据进行调整的能力。我们的工作表明,基于启发式的方法可以实现良好的效果,特别是对于Lucid表。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号