首页> 外文学位 >Identification of headers and footers in noisy documents.
【24h】

Identification of headers and footers in noisy documents.

机译:识别嘈杂文件中的页眉和页脚。

获取原文
获取原文并翻译 | 示例

摘要

Optical Recognition Technology is typically used to convert hard copy printed material into its electronic form. Many presentational artifacts such as end-of-line hyphenations, running headers and footers are literally converted. These artifacts can possibly hinder proximity and exact match searching.; This thesis develops an algorithm to extract running headers and footers from electronic documents generated by OCR. This method associates each page of the document with its neighboring pages and detects the headers and footers by comparing the page with its neighboring pages. Experiments are also taken to test the effectiveness of these algorithms.
机译:光学识别技术通常用于将硬拷贝印刷材料转换成其电子形式。从字面上转换了许多表示项目,例如行尾连字符,运行的页眉和页脚。这些伪像可能会阻碍接近度和精确匹配搜索。本文提出了一种从OCR生成的电子文档中提取运行中的页眉和页脚的算法。此方法将文档的每个页面与其相邻页面相关联,并通过将页面与其相邻页面进行比较来检测页眉和页脚。还进行了实验以测试这些算法的有效性。

著录项

  • 作者

    Liu, Qin.;

  • 作者单位

    University of Nevada, Las Vegas.;

  • 授予单位 University of Nevada, Las Vegas.;
  • 学科 Computer Science.
  • 学位 M.S.
  • 年度 2003
  • 页码 36 p.
  • 总页数 36
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号