首页> 中国专利> 文档处理装置、文档处理方法以及扫描仪

文档处理装置、文档处理方法以及扫描仪

摘要

本公开提供了一种文档处理设备和设备以及扫描仪。该文档处理装置包括:文本行提取单元,其从所输入的文档中提取文本行;语言分类单元,其确定所输入的文档的语言是否需要进行OCR处理;OCR单元,其在确定需要进行OCR时,通过进行OCR处理来确定OCR置信度;图形特征识别单元,其确定图形特征识别置信度;以及确定单元,其基于图形特征识别置信度以及OCR置信度中的至少一项来确定组合置信度,并且基于组合置信度来确定所输入的文档的朝向。根据本公开的技术方案,可以更好地判断文档的朝向,尤其适合于在文档的图像质量退化时判断文档的朝向。

著录项

  • 公开/公告号CN103455806A

    专利类型发明专利

  • 公开/公告日2013-12-18

    原文格式PDF

  • 申请/专利权人 富士通株式会社;

    申请/专利号CN201210177541.2

  • 发明设计人 潘屹峰;孙俊;何源;直井聪;

    申请日2012-05-31

  • 分类号G06K9/20(20060101);

  • 代理机构11227 北京集佳知识产权代理有限公司;

  • 代理人王萍;陈炜

  • 地址 日本神奈川县

  • 入库时间 2024-02-19 21:57:24

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-05-21

    未缴年费专利权终止 IPC(主分类):G06K9/20 授权公告日:20170613 终止日期:20180531 申请日:20120531

    专利权的终止

  • 2017-06-13

    授权

    授权

  • 2014-01-15

    实质审查的生效 IPC(主分类):G06K9/20 申请日:20120531

    实质审查的生效

  • 2013-12-18

    公开

    公开

说明书

技术领域

本公开涉及一种文档处理装置、文档处理方法以及扫描仪,尤其涉及 一种用于确定所输入的文档的朝向的文档处理装置、文档处理方法和扫描 仪。

背景技术

随着对数字图书馆和文档电子化的日益增加的需求,大量的具有实体 载体形式的文档(诸如纸质文档、胶卷文档等)需要通过文档图像处理系 统(Document Image Processing System,DIPS)来扫描并转换成具有指 定格式的电子文档。而作为文档图像处理系统的一个重要步骤,往往需要 从所扫描的文档图像中自动判别出文档的方向(例如从左至右、从右至左、 从下到上和从上到下这四种候选方向)。而进行该判别处理的性能往往会 影响到文档图像处理系统的整体性能。

现有的判别方法主要包括以下两类。第一种是基于图像特征的方法, 第二种是基于光学字符识别(Optical Character Recognition,OCR)的 方法。

发明内容

然而,需要更好地判别文档的朝向,特别是在扫描得到的文档图像质 量较差时,无论使用上面提到的哪种方法,都无法得到满意的判别效果。

因此,至少为了解决这一问题,本公开的发明人提出了一种新的用于 进行文档朝向判别的方法:通过综合利用图像特征信息和光学字符识别信 息,考虑到文档所属的语言来进行判别。

具体地,本公开提出了一种文档处理设备,其包括:文本行提取单元, 其被配置为从所输入的文档中提取至少一个文本行;语言分类单元,其被 配置为通过图形特征识别处理来确定所输入的文档的语言是否需要进行 光学字符识别处理;光学字符识别单元,其被配置为在确定所输入的文档 的语言需要进行光学字符识别时,通过进行光学字符识别处理来为至少一 部分文本行中的每个确定针对各候选方向的光学字符识别置信度;图形特 征识别单元,其被配置为通过进行图形特征识别处理来为每个文本行确定 针对各候选方向的图形特征识别置信度;以及确定单元,其被配置为基于 所确定的图形特征识别置信度以及光学字符识别置信度中的至少一项来 为所述至少一部分文本行中的每个确定针对各候选方向的组合置信度,并 且基于组合置信度来确定所输入的文档的朝向。

本公开还提出了一种扫描仪,其包括上述文档处理设备用来确定所输 入的文档的朝向。

本公开还提出了一种文档处理方法,其包括:从所输入的文档中提取 至少一个文本行;通过图形特征识别处理来确定所输入的文档的语言是否 需要进行光学字符识别处理;在确定所输入的文档的语言需要进行光学字 符识别时,通过进行光学字符识别处理来为至少一部分文本行中的每个确 定针对各候选方向的光学字符识别置信度;通过进行图形特征识别处理来 为每个文本行确定针对各候选方向的图形特征识别置信度;以及基于所确 定的图形特征识别置信度以及光学字符识别置信度中的至少一项来为所 述至少一部分文本行中的每个确定针对各候选方向的组合置信度,并且基 于组合置信度来确定所输入的文档的朝向。

根据本公开的实施例,还提供了一种程序,其用于使得计算机设备执 行上述文档处理方法,用于确定所输入的文档的朝向。

根据本公开的实施例,还提供了相应的计算机可读存储介质,该计算 机可读存储介质上存储有能够由计算设备执行的程序,所述程序在执行时 能够使所述计算设备执行上述文档处理方法。

根据本公开所提出的文档处理装置、文档处理方法和扫描仪,能够较 好地完成对文档的朝向的判别,特别是在扫描得到的文档图像质量较差 时,也能够较好地完成对文档的朝向的判别。

在上文中给出了关于本公开的技术方案的简要概述,以便提供对本公 开的技术方案的某些方面的基本理解。应当理解的是,以上概述并不是关 于本公开的技术方案的穷举性概述。以上概述并不是意图确定本公开的技 术方案的关键或重要部分,也不是意图限定本公开的技术方案的范围。其 目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述 的前序。

通过以下结合附图对本公开的优选实施例的详细说明,本公开的技术 方案的这些以及其他优点将更加明显。

附图说明

本公开的技术方案可以通过参考下文中结合附图所给出的描述而得 到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相 同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中 并且形成本说明书的一部分,而且用来进一步举例说明本公开的优选实施 例和解释本公开的原理和优点。在附图中:

图1是示意性地示出了根据本公开的实施例的信息处理装置的结构 的框图。

图2是具有灰度图像的文档的示例的示意图。

图3是标出了候选文本行的、二值化之后的文档的示例的示意图。

图4是示出了所选择的文本行的示例的示意图。

图5是示出了一个经过二值化之后的文本行的示例的示意图。

图6是描述了根据本公开的实施例的文档处理的流程的流程图。

图7是示意性地示出了可用来实现根据本公开的实施例的信息处理 方法和信息处理装置的一种可能的信息处理设备的硬件配置的结构简图。

本领域技术人员应当理解,附图中的各组成部件仅仅是为了简单和清 楚起见而示出的,而且不一定是按比例绘制的。例如,附图中某些组成部 件的尺寸可能相对于其他组成部件被放大了,以便有助于提高对本公开的 实施例的理解。

具体实施方式

在下文中将结合附图对本公开的优选实施例进行描述。为了清楚和简 明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解, 在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决 定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些 限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此 外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于 本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。

在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公 开的技术方案,在附图中仅仅示出了与根据本公开的技术方案密切相关的 装置结构和/或处理步骤,而省略了与本公开的技术方案关系不大的其他 细节。

本文所使用的术语是仅仅为了描述特定示例实施例的目的的,而并不 旨在进行限制。如此处所使用的,单数形式“一”、“一个”和“这个、那 个、该”可以旨在也包括复数形式,除非上下文清楚指明了其他情况。术 语“包括”、“包含”和“具有”都是开放性的,并且因此指出了存在所述 的特征、整数、步骤、操作、元素、部件和/或这些项目的组。此处描述 的方法步骤、处理和操作不应被解释为需要它们以所讨论或者所图示的特 定顺序来执行,除非按执行的顺序而将其具体标识。还要理解,可以利用 附加的或者可替选的步骤。

根据本公开的实施例,提供了一种文档处理设备,其包括:文本行提 取单元,其被配置为从所输入的文档中提取至少一个文本行;语言分类单 元,其被配置为通过图形特征识别处理来确定所输入的文档的语言是否需 要进行光学字符识别处理;光学字符识别单元,其被配置为在确定所输入 的文档的语言需要进行光学字符识别时,通过进行光学字符识别处理来为 至少一部分文本行中的每个确定针对各候选方向的光学字符识别置信度; 图形特征识别单元,其被配置为通过进行图形特征识别处理来为每个文本 行确定针对各候选方向的图形特征识别置信度;以及确定单元,其被配置 为基于所确定的图形特征识别置信度以及光学字符识别置信度中的至少 一项来为所述至少一部分文本行中的每个确定针对各候选方向的组合置 信度,并且基于组合置信度来确定所输入的文档的朝向。

根据本公开的实施例,还提供了一种扫描仪,其使用上述文档处理设 备来确定所输入的文档的朝向。

根据本公开的实施例,还提供了一种文档处理方法,其包括:从所输 入的文档中提取至少一个文本行;通过图形特征识别处理来确定所输入的 文档的语言是否需要进行光学字符识别处理;在确定所输入的文档的语言 需要进行光学字符识别时,通过进行光学字符识别处理来为至少一部分文 本行中的每个确定针对各候选方向的光学字符识别置信度;通过进行图形 特征识别来为每个文本行确定针对各候选方向的图形特征识别置信度;以 及基于所确定的图形特征识别置信度以及光学字符识别置信度中的至少 一项来为所述至少一部分文本行中的每个确定针对各候选方向的组合置 信度,并且基于组合置信度来确定所输入的文档的朝向。

(文档处理装置实施例)

首先,将参照图1来描述根据本公开的实施例的文档处理装置100。

文档处理装置100包括缩放单元101、二值化单元102、文本行提取 单元103、语言分类单元104、光学字符识别单元105、图形特征识别单 元106和确定单元107。

文档处理装置100从外部接收文档,该文档可以来自于对具有实体载 体形式的文档(诸如纸质文档、胶卷文档等)的扫描,也可以来自于诸如 针对具有实体载体形式的文档所拍摄的照片,或者是包含有文档的其他图 像文件。

所输入的文档首先进入缩放单元101。缩放单元101对所输入的文档 进行缩放,并且将缩放后的文档提供给二值化单元102。

此处所进行的缩放,通常是按一定比例将所输入的文档的图像缩小, 或者将所输入的文档的图像缩小到一定尺寸,以减少后续处理所需的计算 量。当然,也可以根据实际需要,对所输入的文档的图像进行放大或者其 他所需要的处理,诸如校正由于扫描时纸质文档的摆放而造成的倾斜或者 褶皱。由于这些处理是本领域普通技术人员所公知的,因此不再详细描述。

要注意的是,在图1中用虚线框示出的缩放单元101不是必须的,例 如,当所输入的文档的图像已经是适当尺寸的图像时,则不需要设置缩放 单元101,所输入的图像可以直接提供给二值化单元102。

二值化单元102在从缩放单元101接收到缩放后的文档或者直接接收 到所输入的文档时,将所输入的文档转换为二值化图像文档,并将转换后 的文档提供给文本行提取单元103用于提取文本行。

此处所进行的二值化,是指一般意义上已知的二值化处理,例如将所 输入的文档所具有的灰度图像进行前景、背景分割,从而便于后续对图像 中的文字部分进行处理。例如图2是具有灰度图像的文档的示例的示意 图,而图3是二值化之后的文档的示例的示意图。要注意的是,图3中还 用矩形框标记出了稍后描述的候选文本行,这些矩形框并不是经过二值化 处理而产生的结果。此外,要注意的是,图2和图3中的页面是上下颠倒 的,而这在确定文档的朝向的处理中是一种常见的情形。

可以例如通过大津(Otsu)方法或者尼布莱克(Niblack)方法来进 行二值化,当然,本公开不限于此,也可以使用其他适当的方法。

关于二值化处理的具体细节,例如可以参见Due Trier和 Torfinn Taxt的《Evaluation of Binarization Methods for Document  Images》(IEEE Trans,Pattern Anal,Mach,Intell,17(3):312-315 (1995))。

当然,本领域普通技术人员应该理解,此处所进行的二值化处理也可 以针对所输入的文档所具有的彩色图像进行。而且,也可以不进行二值化 处理,例如当所输入的文档原本就具有不需要进行二值化的黑白图像时。 因此,图1中用虚线框示出的二值化单元102不是必须的,可以不设置二 值化单元102,而将由缩放单元101提供的缩放后的文档或者直接输入的 文档直接提供给文本行提取单元103。

文本行提取单元103基于从缩放单元101或二值化单元102或者直接 输入的文档,提取至少一个文本行。

具体地,文本行提取单元103例如可以先根据对图像中联通部件 (Connected Component,CC)的分析来提取候选字符,然后根据字符 之间的空间位置关系来将相邻的字符连接成串,以形成候选文本行,如图 3中用矩形框所标记的。要注意的是,这些候选文本行有可能并不是真正 的文本行,例如图3中左下方的两个矩形框。因此,需要从中选择最有可 能是文档中文字的行的候选文本行,并且把所选择的候选文本行作为文本 行。要注意的是,这里的文本行包括至少一个文本行。图4是示出了所选 择的文本行的示例的示意图。

在选择文本行时,可以根据候选文本行的高度、长度、对其进行纹理 分析的结果或者以上因素的结合来选择至少一个候选文本行作为文本行。 此处所进行的选择文本行的方法,是本领域普通技术人员所公知的,其技 术细节在此不再赘述。此外,本领域普通技术人员可以根据实际需要选择 任何适当的处理方法来提取文本行。

在本实施例中,如图4所示,选择了5个较有可能是文档中文字的行 的候选文本行作为文本行,以方便进行说明。然而,本公开不限于此,也 可以选择其他预定数量的候选文本行作为文本行,通常所选择的文本行的 数量多于5个,例如20个。

优选地,在选择候选文本行时,可以针对每个候选文本行来计算其文 本行置信度。该候选文本行是文档中文字的行的可能性越高,则该候选文 本行的文本行置信度越高。例如,图4中示出的5个文本行41、42、43、 44和45由上自下文本行置信度依次降低。就是说,最上方的文本行41 的文本行置信度最高,而最下方的文本行45的文本行置信度最低。本领 域普通技术人员应该了解,计算文本行置信度的方法也是公知的,可以根 据实际需要选择任何适当的处理方法来计算文本行置信度。

可以基于所计算的候选文本行置信度来选择预订数量的候选文本行 作为文本行,也可以不选择预定数量的候选文本行作为文本行,而是选择 其文本行置信度高于预先设定的阈值的至少一个候选文本行作为文本行。 然而,本公开不限于此,这个阈值既可以是预先设定的,也可以是例如根 据当前文档的所有候选文本行的文本行置信度的分布情况等来设定的,诸 如设定为当前文档的所有候选文本行的文本行置信度的平均值、中位数或 者任何其他适当的值。

文本行提取单元103将所提取的文本行,以及优选地将这些文本行的 文本行置信度提供给语言分类单元104、光学字符识别单元105和图形特 征识别单元106。

语言分类单元104将所接收的文本行根据其图形特征来进行语言分 类,从而确定所输入的文档的语言是否需要进行光学字符识别处理。具体 地,例如可以针对文本行中的纹理特征,利用例如二维游程直方图特征 (2D Run-Length Histogram)方法和人工神经网络(Artificial Neural  Network)分类方法来对文本行所属的语言类别进行分类。关于此处所提 及的利用二维游程直方图特征方法和人工神经网络分类方法来进行语言 分类的细节,可以参见例如Shijian Lu、Linlin Li和Chew Lim Tan的 《Identification of Scripts and Orientations of Degraded Document  Images》(Pattern Anal,Appl,13(4),469-475(2010))以及Ranjith  Unnikrishnan和Ray Smith的《Combined Script and Page Orientation  Estimation Using the Tesseract OCR Engine》(MOCR,2009),在此不再 详述。

通过进行上述的语言分类,例如可以将文本行所属的语言分为中文和 日文类、韩文类、拉丁文字类、正向阿拉伯文类、反向阿拉伯文类、正向 印度文字类和反向印度文字类。

要注意的是,每一类中包括不止一种文字。例如,拉丁文字类可以包 括与拉丁文字具有相似特征的诸如基里尔字母文字(例如塞尔维亚文和俄 文第)和希腊字母文字(例如希腊文)。正向阿拉伯文类和反向阿拉伯文 类各自包括正向和反向的阿拉伯字母文字(例如阿拉伯文等)。正向印度 文字类和反向印度文字类各自包括正向和反向的梵文、泰米尔文、埃纳德 文、孟加拉文等。

之所以这样分类,是因为本公开的发明人通过研究发现,对于前三类 语言,即中文和日文类、韩文类和拉丁文字类的文档,无法仅仅通过文档 的图形特征来判断文本行的朝向,尤其是在图像质量较差时,更是如此。 在此情况下,需要对属于这些类别语言的文本行进行光学字符识别处理, 以判断这些文本行的朝向。而对于后四类语言,即正向阿拉伯文类、反向 阿拉伯文类、正向印度文字类和反向印度文字类,在判断出语言类别的同 时,其实就已经判断出了这些文本行的朝向,不再需要进一步进行光学字 符识别。

基于针对每个文本行进行的语言分类,可以完成整个文档的语言分 类。例如,可以按照文本行置信度从高至低的顺序,逐个为每个文本行确 定针对各候选语言的文本行语言置信度,基于已确定的文本行语言置信度 来确定针对各候选语言的当前语言置信度,并且在当前语言置信度中的最 大值符合预定条件时将该当前语言置信度所对应的候选语言确定为所输 入的文档所属的语言。在此,本领域普通技术人员应该理解,也可以按照 其他任何顺序,逐个为每个文本行确定文本行语言置信度。

要注意,此处所指的“各候选语言”,可以是按照以上提及的分类方 法分类的各种语言类,也可以是按其他方式划分的各语言类(只要该划分 方式可以有助于判断该类中的语言是否需要进行光学字符识别处理来判 断文档的朝向即可),或者是具体的各语言。

文本行所属的语言是某一候选语言(或相应语言类)的可能性越高, 则该文本行针对该候选语言(或相应语言类)的文本行语言置信度越高。 例如,可以将某一文本行针对其最有可能属于的语言(或相应语言类)的 文本行语言置信度设置为1,而将该文本行针对其他语言(或相应语言类) 的文本行语言置信度设置为0。然而,本公开不限于此,例如可以将文本 行所属的语言是某一候选语言(或相应语言类)的概率设置为该文本行针 对该候选语言(或相应语言类)的文本行语言置信度,或者采用其他适当 的文本行语言置信度设置方案。

此外,可以将针对某一候选语言(或相应语言类)的当前语言置信度 设置为与针对这一候选语言(或相应语言类)的、已经进行了语言分类的 各个文本行的文本行语言置信度相关。例如,可以把每次新确定的文本行 的针对各候选语言(或相应语言类)的文本行语言置信度相对应地累加到 各候选语言(或相应语言类)的当前语言置信度上,从而得到各候选语言 (或相应语言类)的当前语言置信度。

在当前语言置信度中的最大值符合预定条件时,可以将该当前语言置 信度所对应的候选语言(或相应语言类)确定为所输入的文档所属的语言。 该预定条件例如可以是当前语言置信度中的最大值高于某个预定阈值。然 而,本公开不限于此,例如,该条件也可以是当前语言置信度中的最大值 高于第二大的值某个预定的量,或者任何其他适当的条件。

由此,语言分类单元104基于对文本行所属的语言(或相应语言类) 的确定,确定了文档所属的语言,并进而可以确定文档所属的语言是否需 要进行光学字符识别处理。语言分类单元104将确定结果提供给光学字符 识别单元105和图像特征识别单元106。

光学字符识别单元105在语言分类单元104确定了所输入的文档的语 言需要进行光学字符识别时,通过对文本行提取单元103所选择的文本行 中的至少一部分进行光学字符识别处理,为每个经过处理的文本行确定针 对各候选方向的光学字符识别置信度。本领域普通技术人员应该理解,光 学字符识别处理是本领域的管用技术手段,其技术细节在此不再赘述。此 外,本领域普通技术人员还应该理解,这里的候选方向通常是从上到下、 从下到上、从左到右和从右到左四种。当然,本公开不限于此,在特定情 况下,例如在文本行是倾斜的情况下,可以存在其他候选方向。

要注意的是,光学字符识别单元105在确定进行光学字符识别处理 时,还可以参照语言分类单元104所确定的语言或相应语言类。例如,光 学字符识别单元105在进行光学字符识别处理时,可以使用与所确定的语 言或语言类相关的字典,从而提高进行光学字符识别处理的效率。

文本行在某一候选方向上通过光学字符识别处理所识别出的字符的 比例越高、数量越多、所进行的光学字符识别的识别结果的置信度越高, 则该文本行针对该候选方向的光学字符识别置信度越高。例如,可以将某 一文本行的光学字符识别结果最好的候选方向的光学字符识别置信度设 置为1,而将该文本行针对其他候选方向的光学字符识别置信度设置为0。 然而,本公开不限于此,例如可以将文本行针对各候选方向的光学字符识 别置信度设置为0至1之间的数字,或者采用其他适当的光学字符识别置 信度设置方案。

此外,对于某些语言的文本行,例如拉丁文的文本行,该文本行的朝 向只能是沿着文本行的走向的,因此在进行光学字符识别处理时,只用考 虑在这两个方向上进行光学字符识别处理,因而可以只计算该文本行针对 这两个候选方向的光学字符识别置信度,而该文本行在另外的候选方向上 的光学字符识别置信度可以是0或者其他表示针对该方向的光学字符识 别置信度受到抑制的值,这进一步减小了计算量,提高了文档处理装置 100的效率。

要注意的是,并不是针对所有语言,文本行的朝向都是沿着文本行的 走向的。一个显然的例子是中文,虽然大部分现代中文书籍都是将文字安 排在横向的行中的,但是在诸如很多古代中文书籍中,文字是安排在纵向 的行中的。类似的情况也存在于日文中。因此,如果语言分类单元104 将文档所属的语言判断为中文或日文时,往往需要在全部四个候选方向上 进行光学字符识别处理,并且计算该文本行针对全部四个候选方向的光学 字符识别置信度。

光学字符识别单元105可以按照文本行置信度从高至低的顺序来逐 个为至少一部分文本行确定光学字符识别置信度,直到稍后将描述的确定 单元107确定了文档的朝向为止。由于光学字符识别处理往往计算量较 大,因此通过这样做,光学字符识别单元105仅仅对至少一部分文本行进 行了光学字符识别处理,避免了在已经确定了文档的朝向之后的不必要地 进行的光学字符识别处理,提高了文档处理装置100的效率。例如,如果 在逐个对图4中的文本行41、42、43进行了光学字符识别处理之后,确 定单元107已经确定了文档的朝向,则不需要再继续对文本行44和45进 行光学字符识别处理,从而减小了计算量,提高了文档处理装置100的效 率。

此外,光学字符识别单元105在没有计算文本行置信度的情况下,也 可以按照任意顺序来逐个为至少一部分文本行确定光学字符识别置信度, 或者可以统一为所有文本行确定光学字符识别置信度,而非逐个进行光学 字符识别处理。

光学字符识别单元105将所确定的光学字符识别置信度提供给确定 单元107。特别地,在光学字符识别单元105逐个地为至少一部分文本行 确定光学字符识别置信度的情况下,光学字符识别处理单元105每确定一 个文本行针对各候选方向的光学字符识别置信度,就将其提供给确定单元 107。

图形特征识别单元106通过进行图形特征识别来为每个文本行提取 单元103所选择的文本行确定针对各候选方向的图形特征识别置信度。

下面以一个由拉丁字母组成的文字行作为示例,给出一种通过图形特 征来判断文字行针对不同候选方向的图形特征识别置信度示例。

图5是示出了一个经过二值化之后的文本行的示例的示意图。该文本 行并不是图4中的文本行41、42、43、44和45中的任一个。在图5中, 标出了文本行的上下基线,其中1为第一基线,2为第二基线。这些基线 是依照使得文本行中的绝大部分图形都位于在基线之间的方式来确定的。 对于按照处于正常朝向中的拉丁文(具有从左至右的方向),由于在上面 “出头”的字母(即,有部分笔划高出上基线)与在下面“出头”的字母 (即,有部分笔划低于下基线)相比,在数量和/或使用频率上均占优, 因此在拉丁文的文本行中,图像中超过上基线的部分应该多于在超过下基 线的部分。而在图5中,图像中超过第二基线2的部分多于超过第一基线 1的部分,因此可以基于超过第一、第二基线的部分在统计上的特征来确 定,图5中的文本行很可能是上下颠倒的。就是说,图5中的文本行针对 从左到右的候选方向的图形特征识别置信度较低,而针对从右至左的候选 方向的图形特征识别置信度较高。至于从上到下和从下到上的候选方向, 由于已知该文本行是拉丁文的文本行并且该文本行不是沿上下方向延伸 的,因此该文本行的朝向必然不会是从上到下或者从下到上的方向,从而 该文本行针对从上到下和从下到上的候选方向的图形特征识别置信度是 0。

而且,本公开不限于此,还可以将某一文本行经图形特征识别处理而 确定为最有可能的候选方向的图形特征识别置信度设置为1,而将该文本 行针对其他候选方向的图形特征识别置信度设置为0,或者采用其他适当 的图形特征识别置信度设置方案。

当然,本公开也不限于以上给出的图形特征识别的示例,还可以例如 针对不同的语言类别,使用其他适当的图形特征来判断文字行针对各候选 方向的图形特征识别置信度。以上所提及的各种图形特征识别处理是本领 域所公知的,在此不再继续描述其技术细节。

如上面所述,图形特征识别单元106在确定进行图形特征识别处理 时,还可以参照语言分类单元104所确定的语言或相应语言类来选择相应 的识别方法和/或标准。特别地,在语言分类单元104已经通过图形特征 识别处理确定了所输入的文档的语言不需要进行光学字符识别处理时,也 就是语言分类单元104已经在确定文档的语言的同时确定了文档的朝向 时,可以直接根据每个文本行的文本行语言置信度来确定该文本行的图形 特征识别置信度,例如,可以直接将每个文本行的文本行语言置信度用作 该文本行的图形特征识别置信度。

此外,无论语言分类单元104的判断结果如何,语言分类单元104 都可以在通过进行图形特征识别处理来确定该文本行针对各候选语言的 文本行语言置信度的同时,借助所进行的图形特征识别处理来确定该文本 行的图形特征识别置信度。就是说,图像特征识别单元106的功能也可以 由语言分类单元104来实现,从而在硬件上省去单独的图像特征识别单元 106,进一步提高文档处理装置100的效率。

图形特征识别单元106将如上所述地确定的图形特征识别置信度提 供给确定单元107。

确定单元107基于从光学字符识别单元105所接收的光学字符识别置 信度以及从图像特征识别单元106所接收的图形特征识别置信度中的至 少一项,为至少一部分文本行中的每个确定针对各候选方向的组合置信 度,并且基于组合置信度来确定所输入的文档的朝向。其中“至少一部分 文本行”在需要对文本行进行光学字符识别处理时,指的是已经对其进行 了光学字符识别处理并得到了光学字符识别置信度的文本行;而在不需要 对文本行进行光学字符识别处理时,指的就是所有进行了图形特征识别处 理并得到了图形特征识别置信度的文本行。

此外,在需要对文本行进行光学字符识别处理时,确定单元107可以 基于光学字符识别置信度和图形特征识别置信度两者来确定组合置信度, 也可以仅仅基于光学字符识别置信度来确定组合置信度。而在不需要对文 本行进行光学字符识别处理时,确定单元107可以仅仅基于图形特征识别 置信度来确定组合置信度。

具体地,确定单元107在基于光学字符识别置信度和图形特征识别置 信度两者来确定组合置信度时,可以将文本行针对每个候选方向的组合置 信度设置为该文本行针对该候选方向的光学字符识别置信度和图形特征 识别置信度的平均数、乘积或其他适当形式,只要该文本行针对该候选方 向的组合置信度与该文本行针对该候选方向的光学字符识别置信度和图 形特征识别置信度均正相关即可。此外,在确定组合置信度时,确定单元 107还可以参考由文本行提取单元103提供的文本行置信度,例如,将文 本行针对每个候选方向的组合置信度设置为该文本行的文本行置信度乘 以该文本行针对该候选方向的光学字符识别置信度和图形特征识别置信 度的平均数。当然,本公开不限于此,只要该文本行针对该候选方向的组 合置信度与该文本行的文本行置信度正相关即可。

基于每个文本行针对每个候选方向的组合置信度,则例如可以得到所 有进行了如上所述的确定处理的文本行针对每个候选方向的组合置信度 之和,并且可以将组合置信度之和最高的候选方向作为整个文档的朝向。

特别地,在光学字符识别单元105按照文本行置信度从高至低的顺序 来逐个为至少一部分文本行确定光学字符识别置信度时,确定单元107 也可以按照文本行置信度从高至低的顺序来逐个为至少一部分文本中的 每个来行确定组合置信度,基于已确定的组合置信度来确定针对各候选方 向的当前置信度,并且在当前置信度中的最大值符合预定条件时将该当前 置信度所对应的候选方向确定为所输入的文档的朝向。

通过这样做,确定单元107对部分文本行逐个进行了确定处理,如果 当前进行的确定处理已经确定了文档的朝向,则不必再对其他文本行进行 需要较多计算量的光学字符识别处理,提高了文档处理装置100的效率。 例如,如果在逐个对图4中的文本行41、42、43进行了确定处理之后, 确定单元107已经确定了文档的朝向,则光学字符识别置信度104不会再 继续对文本行44和45进行光学字符识别处理,从而减小了计算量,提高 了文档处理装置100的效率。

具体地,在设置针对每个候选方向的当前置信度时,例如可以把每次 新确定的文本行的针对各候选方向的组合置信度相对应地累加到各候选 方向的当前置信度上,从而得到各候选方向的当前置信度。

此外,在确定当前置信度时,还可以基于所确定的组合置信度和文本 行置信度来进行。例如,可以使得文本行置信度较高的文本行所具有的组 合置信度在当前置信度中占有较高的权重。

在当前置信度中的最大值符合预定条件时,可以将该当前置信度所对 应的候选方向确定为所输入的文档所属的语言。该预定条件例如可以是当 前置信度中的最大值高于某个预定阈值。然而,本公开不限于此,例如, 该条件也可以是当前置信度中的最大值高于第二大的值某个预定的量,或 者任何其他适当的条件。

此外,在语言分类单元104已经在确定文档的语言的同时确定了文档 的朝向时,由于不需要对各个文本行进行光学字符识别处理,因此可以直 接根据每个文本行的文本行语言置信度来确定该文本行的图形特征识别 置信度,进而可以直接根据每个文本行的文本行语言置信度来确定该文本 行的组合置信度,甚至可以直接根据语言分类单元104所确定的文档的朝 向来使得确定单元107得到文档的朝向,而不再计算组合置信度或者当前 置信度。这样一来,进一步减少了计算量,从而提高了文档处理装置100 的效率。

通过以上所述的文档处理装置100,可以同时通过图形特征识别处理 和光学字符识别处理来判断文档的朝向,并且可以优选地针对文档所属的 语言,尽量减少进行判断所需的运算量。因此,根据本公开的实施例的文 档处理装置可以更好地判断文档的朝向,尤其适合于在文档的图像质量退 化时判断文档的朝向。

(文档处理方法实施例)

以下,将参照图6来描述根据本公开的实施例的文档处理方法处理。 该文档处理方法例如可以是由文档处理装置100来执行的处理。图6是描 述了根据本公开的实施例的文档处理的流程的流程图。

处理开始后,首先进入步骤S601。在步骤S601中,对所输入的文档 进行缩放,并且处理前进到步骤S602。步骤S601例如可以由与前面描述 的缩放单元101相似的功能单元来执行,因此,步骤S601的技术细节可 以参见前面针对缩放单元101所进行的描述,在此不再重复描述。此外, 类似于前面针对缩放单元101进行描述时所提到的,图7中用虚线框示出 的步骤S601不是必须的,可以跳过步骤S601,直接执行后续步骤。

在步骤S602中,将所输入的文档转换为具有二值化图像的文档,并 且处理前进到步骤S603。步骤S602例如可以由与前面描述的二值化单元 102相似的功能单元来执行,因此,步骤S602的技术细节可以参见前面 针对二值化单元102所进行的描述,在此不再重复描述。此外,类似于前 面针对二值化单元102进行描述时所提到的,图7中用虚线框示出的步骤 S602不是必须的,可以跳过步骤S602,直接执行后续步骤。

在步骤S603中,提取至少一个最有可能是文档中的文字的行的图像 作为文本行,并且处理前进到步骤S604。步骤S603例如可以由与前面描 述的文本行提取单元103相似的功能单元来执行,因此,步骤S603的技 术细节可以参见前面针对文本行提取单元103所进行的描述,在此不再重 复描述。

在步骤S604中,所接收的文本行根据其图形特征来进行语言分类, 从而确定所输入的文档的语言是否需要进行光学字符识别处理。在确定需 要进行光学字符识别处理时,处理前进到步骤S605,否则,处理前进到 步骤S606。步骤S604例如可以由与前面描述的语言分类单元104相似的 功能单元来执行,因此,步骤S604的技术细节可以参见前面针对语言分 类单元104所进行的描述,在此不再重复描述。

在步骤S605中,通过进行光学字符识别处理来为至少一部分文本行 中的每个确定针对各候选方向的光学字符识别置信度,并且处理前进到步 骤S606。步骤S605例如可以由与前面描述的光学字符识别单元105相似 的功能单元来执行,因此,步骤S605的技术细节可以参见前面针对光学 字符识别单元105所进行的描述,在此不再重复描述。

在步骤S606中,通过进行图形特征识别处理来为每个文本行确定针 对各候选方向的图形特征识别置信度,并且处理前进到步骤S607。步骤 S606例如可以由与前面描述的图形特征识别单元106相似的功能单元来 执行,因此,步骤S606的技术细节可以参见前面针对图形特征识别单元 106所进行的描述,在此不再重复描述。此外,类似于前面在描述图形特 征识别单元106时所提到的,步骤S606中的处理也可以合并到步骤S604 中来完成。而且,类似于前面在描述确定单元107时所提到的,在进行了 步骤S605时,也可以不进行步骤S606,而是跳过步骤S606,直接进行 后续处理。

在步骤S607中,基于图形特征识别置信度以及光学字符识别置信度 中的至少一项来确定组合置信度,并且基于组合置信度来确定所输入的文 档的朝向,并且结束处理。步骤S607例如可以由与前面描述的确定单元 107相似的功能单元来执行,因此,步骤S607的技术细节可以参见前面 针对确定单元107所进行的描述,在此不再重复描述。

由此,通过以上所述的信息处理方法,可以同时通过图形特征识别处 理和光学字符识别处理来判断文档的朝向,并且优选地可以针对文档所属 的语言,尽量减少进行判断所需的运算量。因此,根据本公开的实施例的 文档处理方法可以更好地判断文档的朝向,尤其适合于在文档的图像质量 退化时判断文档的朝向。

(硬件配置实施例)

上述根据本公开的实施例的文档处理装置中的各个组成单元、子单元 等可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件 或固件实现的情况下,可从存储介质或网络向具有专用硬件结构的机器 (例如图7所示的通用机器700)安装构成该软件或固件的程序,该机器 在安装有各种程序时,能够执行上述各组成单元、子单元的各种功能。

图7是示意性地示出了可用来实现根据本公开的实施例的文档处理 方法和文档处理装置的一种可能的文档处理设备的硬件配置的结构简图。

在图7中,中央处理单元(CPU)701根据只读存储器(ROM)702 中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的 程序执行各种处理。在RAM 703中,还根据需要存储当CPU 701执行各 种处理等等时所需的数据。CPU 701、ROM 702和RAM 703经由总线704 彼此连接。输入/输出接口705也连接到总线704。

下述部件也连接到输入/输出接口705:输入部分706(包括键盘、鼠 标等)、输出部分707(包括显示器,例如阴极射线管(CRT)、液晶显示 器(LCD)等和扬声器等)、存储部分708(包括硬盘等)、通信部分709 (包括网络接口卡例如局域网(LAN)卡、调制解调器等)。通信部分709 经由网络例如因特网执行通信处理。根据需要,驱动器710也可连接到输 入/输出接口705。可拆卸介质711例如磁盘、光盘、磁光盘、半导体存储 器等等可以根据需要被安装在驱动器710上,使得从中读出的计算机程序 可根据需要被安装到存储部分708中。

在通过软件实现上述系列处理的情况下,可以从网络例如因特网或从 存储介质例如可拆卸介质711安装构成软件的程序。

本领域的技术人员应当理解,这种存储介质不局限于图7所示的其中 存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。 可拆卸介质711的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储 器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注 册商标))和半导体存储器。或者,存储介质可以是ROM 702、存储部分 708中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分 发给用户。

此外,本公开还提出了一种存储有机器可读取的指令代码的程序产 品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的 文档处理方法。相应地,用于承载这种程序产品的例如磁盘、光盘、磁光 盘、半导体存储器等的各种存储介质也包括在本公开的技术方案中。

此外,显然,根据本公开的实施例的文档处理方法的各个操作过程也 可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实 现。

要注意,根据本公开的实施例的文档处理装置的各组成单元可以是独 立部件,也可以由一个的部件来实现若干个组成单元的功能。

此外,要注意,根据本公开的文档处理方法的各步骤,不必须按照本 公开中所记载的顺序进行,而是可以并行执行或者按照调用来执行,例如, 步骤S601不一定要在步骤S602之前执行,而是可以在步骤S602之后执 行,或者两者并行地执行。步骤S605也不一定要在步骤S606之前执行, 而是可以在步骤S606之后执行,或者两者并行地执行。

关于包括以上实施例的实施方式,还公开下述附记:

附记1.一种文档处理设备,其包括:

文本行提取单元,其被配置为从所输入的文档中提取至少一个文本 行;

语言分类单元,其被配置为通过图形特征识别处理来确定所输入的文 档的语言是否需要进行光学字符识别处理;

光学字符识别单元,其被配置为在确定所输入的文档的语言需要进行 光学字符识别时,通过进行光学字符识别处理来为至少一部分文本行中的 每个确定针对各候选方向的光学字符识别置信度;

图形特征识别单元,其被配置为通过进行图形特征识别处理来为每个 文本行确定针对各候选方向的图形特征识别置信度;以及

确定单元,其被配置为基于所确定的图形特征识别置信度以及光学字 符识别置信度中的至少一项来为所述至少一部分文本行中的每个确定针 对各候选方向的组合置信度,并且基于组合置信度来确定所输入的文档的 朝向。

附记2.根据附记1所述的文档处理设备,其中

所述语言分类单元还被配置为在确定了所输入的文档的语言是使用 中文、日文、韩文或使用拉丁字母的语言时,确定所输入的文档的语言需 要进行光学字符识别处理。

附记3.根据附记1或2所述的文档处理设备,其中

所述文本行提取单元还被配置为计算每个文本行是文档中的文字的 行的可能性作为文本行置信度;并且

所述光学字符识别单元还被配置为按照文本行置信度从高至低的顺 序来逐个为每个文本行确定光学字符识别置信度,直到所述确定单元确定 了文档的朝向为止。

附记4.根据附记3所述的文档处理设备,其中

所述确定单元还被配置为按照文本行置信度从高至低的顺序来逐个 为每个所述至少一部分文本行确定组合置信度,基于已确定的组合置信度 来确定针对各候选方向的当前置信度,并且在当前置信度中的最大值符合 第一预定条件时将该当前置信度所对应的候选方向确定为所输入的文档 的朝向。

附记5.根据附记4所述的文档处理设备,其中

所述确定单元还被配置为基于已确定的组合置信度和文本行置信度 来确定针对各候选方向的当前置信度。

附记6.根据附记3所述的文档处理设备,其中

所述文本行提取单元还被配置为计算每个文本行是文档中的文字的 行的可能性作为文本行置信度;并且

所述语言分类单元还被配置为按照文本行置信度从高至低的顺序来 逐个为每个文本行确定针对各候选语言的文本行语言置信度,基于已确定 的文本行语言置信度来确定针对各候选语言的当前语言置信度,并且在当 前语言置信度中的最大值符合第二预定条件时将该当前语言置信度所对 应的候选语言确定为所输入的文档所属的语言。

附记7.根据附记1至6中任一项所述的文档处理设备,其还包括:

缩放单元,其被配置为对所输入的文档进行缩放,并且将缩放后的文 档提供给所述文本行提取单元用于提取文本行。

附记8.根据附记1至7中任一项所述的文档处理设备,其还包括:

二值化单元,其被配置为将所输入的文档转换为二值化图像文档,并 提供给所述文本行提取单元用于提取文本行。

附记9.一种扫描仪,其包括据附记1至8中任一项所述的文档处理 设备用来确定所输入的文档的朝向。

附记10.一种文档处理方法,其包括:

文本行提取步骤,其从所输入的文档中提取至少一个文本行;

语言分类步骤,其通过图形特征识别处理来确定所输入的文档的语言 是否需要进行光学字符识别处理;

光学字符识别步骤,其在确定所输入的文档的语言需要进行光学字符 识别时,通过进行光学字符识别处理来为至少一部分文本行中的每个确定 针对各候选方向的光学字符识别置信度;

图形特征识别步骤,通过进行图形特征识别处理来为每个文本行确定 针对各候选方向的图形特征识别置信度;以及

确定步骤,基于所确定的图形特征识别置信度以及光学字符识别置信 度中的至少一项来为所述至少一部分文本行中的每个确定针对各候选方 向的组合置信度,并且基于组合置信度来确定所输入的文档的朝向。

附记11.根据附记10所述的文档处理方法,其中

在所述语言分类步骤中,在确定了所输入的文档的语言是使用中文、 日文、韩文或使用拉丁字母的语言时,确定所输入的文档的语言需要进行 光学字符识别处理。

附记12.根据附记10或11所述的文档处理方法,其中

在所述文本行提取步骤中,还计算每个文本行是文档中的文字的行的 可能性作为文本行置信度;并且

在所述光学字符识别步骤中,还按照文本行置信度从高至低的顺序来 逐个为每个文本行确定光学字符识别置信度,直到在所述确定步骤中确定 了文档的朝向为止。

附记13.根据附记12所述的文档处理方法,其中

在所述确定步骤中,按照文本行置信度从高至低的顺序来逐个为每个 所述至少一部分文本行确定组合置信度,基于已确定的组合置信度来确定 针对各候选方向的当前置信度,并且在当前置信度中的最大值符合第一预 定条件时将该当前置信度所对应的候选方向确定为所输入的文档的朝向。

附记14.根据附记13所述的文档处理方法,其中

在所述确定步骤中,基于已确定的组合置信度和文本行置信度来确定 针对各候选方向的当前置信度。

附记15.根据附记10至14中任一项所述的文档处理方法,其中

在所述文本行提取步骤中,计算每个文本行是文档中的文字的行的可 能性作为文本行置信度;并且

在所述语言分类步骤中,按照文本行置信度从高至低的顺序来逐个为 每个文本行确定针对各候选语言的文本行语言置信度,基于已确定的文本 行语言置信度来确定针对各候选语言的当前语言置信度,并且在当前语言 置信度中的最大值符合第二预定条件时将该当前语言置信度所对应的候 选语言确定为所输入的文档所属的语言。

附记16.根据附记10至15中任一项所述的文档处理方法,其还包括:

缩放步骤,其对所输入的文档进行缩放,并且缩放后的文档用于在所 述文本行提取步骤中提取文本行。

附记17.根据附记10至16中任一项所述的文档处理方法,其还包括:

二值化步骤,其将所输入的文档转换为二值化图像文档,并且转换后 的二值化图像文档语言在所述文本行提取步骤中提取文本行。

附记18.一种程序,其用于使得计算机设备执行根据附记10至17中 任一项所述的文档处理方法,用于确定所输入的文档的朝向。

附记19.一种计算机可读存储介质,在所述计算机可读存储介质上存 储有能够由计算设备执行的程序,所述程序在执行时能够使所述计算设备 执行根据附记10至17中任一项所述的文档处理方法。

虽然已经详细说明了本公开的技术方案及其优点,但是应当理解在不 脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行 各种改变、替代和变换。而且,本公开的范围不仅限于说明书所描述的过 程、设备、制造、物质的结构、手段、方法和步骤的具体实施例。本领域 内的普通技术人员从本发明的公开内容将容易理解,根据本发明可以使用 执行与在此所述的相应实施例基本相同的功能或者获得与其基本相同的 结果的、现有和将来要被开发的过程、设备、制造、物质的结构、手段、 方法或者步骤。因此,所附的权利要求旨在它们的范围内包括这样的过程、 设备、制造、物质的结构、手段、方法或者步骤。

以上虽然结合附图详细描述了本公开的实施例,但是应当明白,上面 所描述的实施方式只是用于说明本公开的技术方案,而并不构成对本公开 的技术方案的限制。对于本领域的技术人员来说,可以对上述实施方式作 出各种修改和变更而没有背离本发明的实质和范围。因此,本公开的范围 仅由所附的权利要求及其等同含义来限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号