QATIP -- An Optical Character Recognition System for Arabic Heritage Collections in Libraries

机译：QATIP-图书馆阿拉伯文物馆藏的光学字符识别系统

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

Nowadays, commercial optical character recognition (OCR) software achieves very high accuracy on high-quality scans of modern Arabic documents. However, a large fraction of Arabic heritage collections in libraries is usually more challenging - e.g. consisting of typewritten documents, early prints, and historical manuscripts. In this paper, we present our end-user oriented QATIP system for OCR in such documents. The recognition is based on the Kaldi toolkit and sophisticated text image normalization. This paper contains two main contributions: First, we describe the QATIP interface for libraries which consists of both a graphical user interface for adding and monitoring jobs and a web API for automated access. Second, we suggest novel approaches for language modelling and ligature modelling for continuous Arabic OCR. We test our QATIP system on an early print and a historical manuscript and report substantial improvements - e.g. 12.6% character error rate with QATIP compared to 51.8% with the best OCR product in our experimental setup (Tesseract).

机译：如今，商业光学字符识别（OCR）软件在对现代阿拉伯文档进行高质量扫描时已经达到了很高的准确性。但是，图书馆中大部分阿拉伯文物收藏通常更具挑战性，例如由打字文件，早期印刷品和历史手稿组成。在本文中，我们在此类文档中介绍了面向OCR的面向最终用户的QATIP系统。识别基于Kaldi工具包和复杂的文本图像规范化。本文包含两个主要贡献：首先，我们描述了用于库的QATIP界面，该界面由用于添加和监视作业的图形用户界面以及用于自动访问的Web API组成。第二，我们建议用于连续阿拉伯语OCR的语言建模和连字建模的新颖方法。我们会在早期版本和历史手稿上测试我们的QATIP系统，并报告实质性的改进-例如QATIP的字符错误率为12.6％，而在我们的实验装置（Tesseract）中，最佳OCR产品的字符错误率为51.8％。

著录项

来源
《IAPR International Workshop on Document Analysis Systems》|2016年|168-173|共6页
会议地点
作者
Felix Stahlberg; Stephan Vogel;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类
关键词

相似文献

外文文献
中文文献
专利

1. An Arabic optical character recognition system using recognition-based segmentation [J] . Cheung A., Bergmann NW., Bennamoun M. Pattern Recognition: The Journal of the Pattern Recognition Society . 2001,第2期

机译：使用基于识别的分割的阿拉伯光学字符识别系统
2. Automated System for Arabic Optical Character Recognition with Lookup Dictionary [J] . Inad Aljarrah, Osama Al-Khaleel, Khaldoon Mhaidat, Journal of Emerging Technologies in Web Intelligence . 2012,第4期

机译：带有查找字典的阿拉伯语光学字符自动识别系统
3. Optical Character Recognition System for Arabic Text Using Cursive Multi-Directional Approach | Science Publications [J] . Jamil Ahmad, Mansoor Al-Aali Journal of computer sciences . 2007,第7期

机译：使用草书多方向方法的阿拉伯文字光学字符识别系统科学出版物
4. QATIP -- An Optical Character Recognition System for Arabic Heritage Collections in Libraries [C] . Felix Stahlberg, Stephan Vogel IAPR International Workshop on Document Analysis Systems . 2016

机译：Qatip - 图书馆中阿拉伯语遗产集合的光学字符识别系统
5. Optical Character Recognition of Printed Persian/Arabic Documents. [D] . Shafii, Mahnaz. 2014

机译：印刷的波斯/阿拉伯文档的光学字符识别。
6. Synthesis of Common Arabic Handwritings to Aid Optical Character Recognition Research [O] . Laslo Dinges, Ayoub Al-Hamadi, Moftah Elzobi, 2016

机译：常用阿拉伯文字的合成对光学字符识别的研究
7. Optical Character Recognition System for Arabic Text Using Cursive Multi-Directional Approach [O] . Jamil Ahmad 2008

机译：采用草书多方向法的阿拉伯文字光学字符识别系统
8. Optical Character Recognition in Microfilmed Newspaper Library Collections: AFeasibility Study [R] . Alkula, R., Pieskae, K. 1994

机译：微缩胶卷报库馆藏中的光学字符识别：可行性研究

QATIP -- An Optical Character Recognition System for Arabic Heritage Collections in Libraries

摘要

著录项

相似文献

相关主题

期刊订阅