首页> 外文会议>International Conference on Computer Recognition Systems >Text Detection in Document Images by Machine Learning Algorithms
【24h】

Text Detection in Document Images by Machine Learning Algorithms

机译:机器学习算法文档图像中的文本检测

获取原文

摘要

In the proposed paper, we consider a problem of text detection in document images. This problem plays an important role in OCR systems and is a challenging task. In the first step of our proposed text detection approach, we use a self-adjusting bottom-up segmentation algorithm to segment a document image into a set of connected components (CCs). The segmentation algorithm is based on the Sobel edge detection method. In the second step, CCs are described in terms of 27 features and a machine learning algorithm is then used to classify the CCs as text or nontext. For testing the approach, we have collected a dataset (ASTRoID), which contains 500 images of text blocks and 500 images of nontext blocks. We empirically compare performance of the proposed text detection method when using seven different machine learning algorithms.
机译:在拟议论文中,我们考虑文档图像中的文本检测问题。 这个问题在OCR系统中发挥着重要作用,并且是一个具有挑战性的任务。 在我们提出的文本检测方法的第一步中,我们使用自调整自下而上的分段算法将文档映像分段为一组连接的组件(CCS)。 分段算法基于Sobel边缘检测方法。 在第二步中,根据27个功能描述了CC,然后使用机器学习算法将CCS作为文本或非文本分类。 为了测试方法,我们收集了数据集(Astrop),其中包含500个文本块图像和500图像的非文本块。 我们在使用七种不同机器学习算法时凭经验比较所提出的文本检测方法的性能。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号