首页> 中国专利> 账票种类识别程序、账票种类识别方法以及账票种类识别装置

账票种类识别程序、账票种类识别方法以及账票种类识别装置

摘要

一种账票种类识别装置,与各账票种类对应地预先保持存储了成为用于识别账票种类的关键的多个关键字的账票种类识别信息DB,对账票上所填写的字符串进行排列,使用账票种类识别信息DB中所存储的多个关键字,对每个关键字分别生成用于与账票上所填写的字符串进行对照的多个部分字符串,分别对照排列后的各组字符串和所生成的各部分字符串,对于对照成功了的各部分字符串,在对每个关键字取得各部分字符串相对于各组字符串的对照率最大时的正确解字符数以后,使用各正确解字符数对每个账票种类计算出评价了是该账票种类的可能性的评价值以决定账票种类。

著录项

  • 公开/公告号CN101622632A

    专利类型发明专利

  • 公开/公告日2010-01-06

    原文格式PDF

  • 申请/专利权人 富士通株式会社;

    申请/专利号CN200780052064.4

  • 发明设计人 皆川明洋;武部浩明;藤本克仁;

    申请日2007-03-08

  • 分类号G06K9/72;G06K9/20;

  • 代理机构北京集佳知识产权代理有限公司;

  • 代理人雒运朴

  • 地址 日本神奈川县

  • 入库时间 2023-12-17 23:18:41

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-03-01

    未缴年费专利权终止 IPC(主分类):G06K9/72 授权公告日:20111221 终止日期:20180308 申请日:20070308

    专利权的终止

  • 2011-12-21

    授权

    授权

  • 2010-03-03

    实质审查的生效

    实质审查的生效

  • 2010-01-06

    公开

    公开

说明书

技术领域

本发明涉及使计算机执行账票种类识别处理的账票种类识别程序、与该账票种类识别程序相对应的账票种类识别方法以及账票种类识别装置,该账票种类识别处理即接受与账票上填写的字符串有关的字符信息以及与格线有关的格线信息的输入,并对填写了该字符信息以及该格线信息的账票的账票种类进行识别的处理。

背景技术

以往,以对纸账票上所写入的字符信息等进行辨认并自动输入辨认后得到的数据为目的,存在基于预先保持的账票识别信息暂时识别账票种类的技术。这里,账票识别信息是指账票上的字符信息及格线信息、用于确定账票种类的识别ID等。

例如,在专利文献1中公开了如下技术,即通过将基于字符辨认结果所抽取出的组字符串、和对于各账票种类预先保持的账票识别用的关键字(按每个账票对频繁使用的字符进行管理而得到的字符)进行对照来识别账票种类,该字符辨认结果与接受输入而得到的账票数据对应。

专利文献1:日本特开2001-202466号公报

发明内容

然而,上述的现有技术因诸如以下将说明的原因而存在有时候无法实现高精度的账票种类识别之类的问题点。

即,在接受输入而得到的账票数据之中包含很多说明词句及注释之类的无用字符串,所以抽取诸如与预先保持的账票识别用的关键字对应那样的组字符串本身就较为困难。所以,存在如下的问题点:例如在将“交货单”作为与任意账票有关的账票识别用的一个关键字来保持,并从所输入的账票数据抽取出“交货单(兼收据)”这样的组字符串的情况下,账票种类识别用的关键字对于组字符串的对照就不起作用,有时候无法实现高精度的账票种类识别。

另外,在接受输入而得到的账票数据之中,由3字符组成的字符串以1个字符错误的状态存在时,此字符串的字符辨认率为67%,通常被认为不合适而不作为关键字进行抽取。所以,当在账票数据之中由3字符组成的字符串以1个字符错误的状态存在时,由于为了识别账票种类而作为重要的标题字符串所使用的、例如“申请书”、“交货单”、“报价单”等这样的3字符组成的字符串不会作为关键字被抽取出来,结果就存在有时候无法实现高精度的账票种类识别之类的问题点。

因而,本发明就是为了解决上述的现有技术的课题而完成的,其目的是提供一种可以实现高精度的账票种类识别的账票种类识别程序、账票种类识别方法以及账票种类识别装置。

为了解决上述课题而达到目的,本发明之1提供一种账票种类识别程序,其特征在于,使计算机执行账票种类识别处理,该账票种类识别处理是接受与账票上所填写的字符串有关的字符信息以及与格线有关的格线信息的输入,对填写了该字符信息以及该格线信息的账票的账票种类进行识别的处理,该账票种类识别程序使计算机执行以下步骤:账票种类识别信息存储步骤,与各账票种类对应地分别在存储部中存储成为用于识别账票种类的关键的多个关键字信息;部分字符串生成步骤,使用通过上述账票种类识别信息存储步骤在存储部中所存储的上述多个关键字信息,按每个关键字信息分别生成用于与账票上所填写的字符串进行对照的多个部分字符串;字符串排列步骤,基于上述字符信息以及上述格线信息,在横方向上观看账票上所填写的字符串的情况下,分别生成在字符高度重叠的范围对该字符串进行分割后的组字符串,并且对该生成的各组字符串进行排列;部分字符串对照步骤,分别对照通过上述字符串排列步骤排列的各组字符串和通过上述部分字符串生成步骤生成的各部分字符串,按每个上述关键字信息取得各部分字符串相对于各组字符串的对照率最大时的一致字符数,并使用该取得的各一致字符数对每个账票种类计算出评价了是该账票种类的可能性的评价值;以及账票种类决定步骤,基于通过上述部分字符串对照步骤对每个账票种类计算出的各评价值,来决定与填写了上述字符信息以及上述格线信息的账票相对的账票种类。

另外,本发明之2的特征是,在上述发明的基础上,上述账票种类决定步骤判定通过上述部分字符串对照步骤对每个账票种类计算出的各评价值是否超过了对每个账票种类所规定的阈值,以决定与填写了上述字符信息以及上述格线信息的账票相对的账票种类。

另外,本发明之3的特征是,在上述发明的基础上,上述账票种类决定步骤判定通过上述部分字符串对照步骤对每个账票种类计算出的各评价值是否超过了对每个账票种类所规定的阈值,在与被判定为超过了该阈值的评价值相对应的账票种类存在多个的情况下,根据该评价值的高低将该存在多个的账票种类排序。

另外,本发明之4的特征是,在上述发明的基础上,上述账票种类决定步骤判定通过上述部分字符串对照步骤对每个账票种类计算出的各评价值是否超过了对每个账票种类所规定的阈值,在与被判定为超过了该阈值的评价值相对应的账票种类存在多个的情况下,决定为评价值最高的账票种类。

另外,本发明之5的特征是,在上述发明的基础上,上述字符串排列步骤在根据上述字符信息以及上述格线信息判明了在上述组字符串内存在格线的情况下,用格线来分割该组字符串。

另外,本发明之6的特征是,在上述发明的基础上,上述账票种类识别信息存储步骤进一步在存储部中存储对每个上述关键字规定了可否使用的使用可否信息,使计算机进一步执行关键字选择步骤,在该关键字选择步骤中基于通过上述账票种类识别信息存储步骤在存储部中所存储的上述使用可否信息,从该存储部中所存储的多个关键字信息之中选择已被许可使用的关键字信息,上述部分字符串生成步骤使用通过上述关键字选择步骤所选择出的关键字信息分别生成上述多个部分字符串。

另外,本发明之7的特征是,在上述发明的基础上,在上述账票种类决定步骤中,每当通过上述部分字符串对照步骤对每个账票种类计算出各评价值时,基于该各评价值对该账票种类的候补进行缩选,使计算机进一步执行关键字信息变更步骤,在该关键字信息变更步骤中,每当通过上述账票种类决定步骤对账票种类的候补进行了缩选时,从通过上述账票种类识别信息存储步骤在存储部中所存储的上述多个关键字信息之中,考虑该缩选后的账票种类的候补来变更关键字信息,在上述部分字符串生成步骤中,每当通过上述关键字信息变更步骤变更了关键字信息时,使用该变更后的关键字信息分别生成上述多个部分字符串,在上述部分字符串对照步骤中,每当通过上述部分字符串生成步骤生成了上述多个部分字符串时,分别对照通过上述字符串排列步骤所排列的各组字符串和通过上述部分字符串生成步骤所生成的各部分字符串,并对每个账票种类计算出对构成各组字符串的字符串与各部分字符串的一致度进行了评价的评价值。

另外,本发明之8的特征是,在上述发明的基础上,在上述账票种类识别信息存储步骤中,与各账票种类对应地,按每个含义相同的组,分别在存储部中存储上述多个关键字信息,在上述部分字符串对照步骤中,分别对照通过上述字符串排列步骤所排列的各组字符串、和通过上述部分字符串生成步骤所生成的各部分字符串,从上述各组内的多个关键字之中分别抽取各部分字符串相对于各组字符串的对照率最大的关键字,对于该抽取出的各关键字分别取得一致字符数,并使用该取得的各一致字符数对每个账票种类计算出评价了是该账票种类的可能性的评价值。

另外,本发明之9提供一种账票种类识别方法,其特征在于,是接受与账票上所填写的字符串有关的字符信息以及与格线有关的格线信息的输入,对填写了该字符信息以及该格线信息的账票的账票种类进行识别的账票种类识别方法,包括以下工序:账票种类识别信息存储工序,与各账票种类对应地分别在存储部中存储成为用于识别账票种类的关键的多个关键字信息;部分字符串生成工序,使用通过上述账票种类识别信息存储工序在存储部中所存储的上述多个关键字信息,按每个关键字信息分别生成用于与账票上所填写的字符串进行对照的多个部分字符串;字符串排列工序,基于上述字符信息以及上述格线信息,在横方向上观看账票上所填写的字符串的情况下,分别生成在字符高度重叠的范围对该字符串进行分割后的组字符串,并且对该生成的各组字符串进行排列;部分字符串对照工序,分别对照通过上述字符串排列工序排列的各组字符串和通过上述部分字符串生成工序生成的各部分字符串,按每个上述关键字信息取得各部分字符串相对于各组字符串的对照率最大时的一致字符数,并使用该取得的各一致字符数对每个账票种类计算出评价了是该账票种类的可能性的评价值;以及账票种类决定工序,基于通过上述部分字符串对照工序对每个账票种类计算出的各评价值,来决定与填写了上述字符信息以及上述格线信息的账票相对的账票种类。

另外,本发明之10提供一种账票种类识别装置,其特征在于,是接受与账票上所填写的字符串有关的字符信息以及与格线有关的格线信息的输入,对填写了该字符信息以及该格线信息的账票的账票种类进行识别的账票种类识别装置,包括:账票种类识别信息存储单元,与各账票种类对应地分别存储成为用于识别账票种类的关键的多个关键字信息;部分字符串生成单元,使用由上述账票种类识别信息存储单元所存储的上述多个关键字信息,按每个关键字信息分别生成用于与账票上所填写的字符串进行对照的多个部分字符串;字符串排列单元,基于上述字符信息以及上述格线信息,在横方向上观看账票上所填写的字符串的情况下,分别生成在字符高度重叠的范围对该字符串进行分割后的组字符串,并且对该生成的各组字符串进行排列;部分字符串对照单元,分别对照由上述字符串排列单元排列的各组字符串和由上述部分字符串生成单元生成的各部分字符串,按每个上述关键字信息取得各部分字符串相对于各组字符串的对照率最大时的一致字符数,并使用该取得的各一致字符数对每个账票种类计算出评价了是该账票种类的可能性的评价值;以及账票种类决定单元,基于通过上述部分字符串对照单元对每个账票种类计算出的各评价值,来决定与填写了上述字符信息以及上述格线信息的账票相对的账票种类。

根据本发明,与各账票种类(例如“申请书”或“交货单”、“报价单”等)对应地分别在存储部中存储成为用于识别账票种类的关键的多个关键字信息(例如若是“申请书”就是“申请书”、“申请日”、“住所”、“姓名”等账票上所填写的信息),并利用存储部中所存储的多个关键字,按每个关键字信息分别生成用于与账票上所填写的字符串进行对照的多个部分字符串(例如若是“申请书”就是“申请”、“请书”以及“申书”等由3个字符中的2个字符组成的字符串),并基于与账票上所填写的字符串有关的字符信息以及与格线有关的格线信息,在横方向上观看账票上所填写的字符串的情况下,分别生成在字符高度重叠的范围对该字符串进行分割后的组字符串并且进行排列,分别对照各组字符串和各部分字符串,按每个关键字信息取得各部分字符串相对于各组字符串的对照率最大时的一致字符数,利用所取得的各一致字符数对每个账票种类计算出评价了是该账票种类的可能性的评价值(例如,将组字符串和部分字符串的一致字符数用全关键字的字符数进行了除法运算后的值),并基于对每个账票种类计算出的各评价值来决定与已填写了字符信息以及格线信息的账票相对的账票种类,所以可以实现高精度的账票种类识别而不会局限于与预先保持的账票识别用的关键字对应的那样的组字符串的抽取。另外,即使在账票上所填写的字符串之中存在错误、或者在字符串的辨认结果中有错误的情况下,也能够计算出通过利用了部分字符串的对照而考虑了部分一致的评价值,可以实现高精度的账票种类识别。

另外,根据本发明,判断对每个账票种类计算出的各评价值是否超过对每个账票种类规定的阈值来决定与已填写字符信息以及格线信息的账票相对的账票种类,所以就可以用简易的方法来决定账票种类。

另外,根据本发明,判定对每个账票种类计算出的各评价值是否超过对每个账票种类所规定的阈值,并在与被判定为超过阈值的评价值相对应的账票种类存在多个的情况下根据评价值的高低将存在多个的账票种类排序,所以就可以将账票种类的候补排序后提供给用户。

另外,根据本发明,判定对每个账票种类计算出的各评价值是否超过对每个账票种类规定的阈值,并在与被判定为超过阈值的评价值相对应的账票种类存在多个的情况下,决定为评价值最高的账票种类,所以就可以将最可能的账票种类作为账票种类的候补提供给用户。

另外,根据本发明,在根据字符信息以及格线信息判明了在组字符串内存在格线的情况下,用格线来分割组字符串,所以就可以在构成正规词句的范围对组字符串进行分割。

另外,根据本发明,在存储部中进一步存储对多个关键字的每个规定了可否使用的使用可否信息,并基于存储部中所存储的使用可否信息从多个关键字信息之中选择已许可使用的关键字信息,使用所选择的关键字信息分别生成多个部分字符串,所以能够仅仅使用预先保持的关键字之中的需要的关键字,另外与用所有关键字进行处理相比较可以减少处理时间。

另外,根据本发明,每当对每个账票种类计算出各评价值时,基于各评价值对账票种类的候补进行缩选(例如将评价值最低的除外等,缩选成有可能性作为账票种类的候补),每当账票种类的候补被缩选时,从存储部中所存储的多个关键字信息之中,根据缩选后的账票种类的候补来变更关键字信息,每当关键字信息被变更时,使用经过变更的关键字信息分别生成多个部分字符串,每当生成了多个部分字符串时,分别对照各组字符串和各部分字符串,对每个账票种类计算对构成各组字符串的字符串与各部分字符串的一致度进行了评价的评价值,所以不会使用明显不需要的账票种类的关键字进行处理而可以使处理时间以及处理次数减少,并且可以实现精度更高的账票种类识别。

另外,根据本发明,与各账票种类对应地按含义相同的每组分别在存储部中存储上述多个关键字信息,分别对照各组字符串和各部分字符串,并从各组内的多个关键字之中分别抽取各部分字符串相对于各组字符串的对照率最大的关键字,对于所抽取出的各关键字分别取得一致字符数,并使用所取得的各一致字符数对每个账票种类计算评价了是该账票种类的可能性的评价值,所以可以实现高精度的账票种类识别。即,例如,对于账票种类“申请书”,将“申请日”和“填写日”作为持有相同含义的一个组来处理,如果在根据“申请日”以及“填写日”所生成的部分字符串和根据输入的字符信息以及格线信息所生成的组字符串的一致度之中的、与根据“申请日”所生成的部分字符串的一致度较高,则使用与根据“申请日”所生成的部分字符串的一致字符数来计算评价值,所以能够实现高精度的账票种类识别而不会使评价值降低。

附图说明

图1是用于说明实施例1所涉及的账票种类识别装置之概要以及特征的图。

图2是用于说明实施例1所涉及的部分字符串之生成的图。

图3是表示实施例1所涉及的账票种类识别装置之构成的框图。

图4是表示实施例1所涉及的账票种类识别信息DB中所存储的信息之构成例的图。

图5是表示实施例1所涉及的字符串之排列例的图。

图6是表示实施例1所涉及的组字符串之生成方法的图。

图7是表示实施例1所涉及的组字符串和部分字符串之对照方法的图。

图8是表示实施例1所涉及的组字符串和部分字符串之对照方法的图。

图9是表示实施例1所涉及的组字符串和部分字符串之对照方法的图。

图10是表示实施例1所涉及的组字符串和部分字符串之对照例的图。

图11是表示实施例1所涉及的换算表之构成例的图。

图12是表示实施例1所涉及的账票种类之输出例的图。

图13是表示实施例1所涉及的字符串排列处理之流程的流程图。

图14是表示实施例1所涉及的部分字符串生成处理之流程的流程图。

图15是表示实施例1所涉及的账票种类决定处理之流程的流程图。

图16是表示实施例2所涉及的账票种类识别信息DB之构成例的图。

图17是表示实施例2所涉及的关键字之选择例的图。

图18是表示实施例3所涉及的账票种类识别装置之构成的框图。

图19是表示实施例3所涉及的关键字变更之流程的图。

图20是表示实施例4所涉及的账票种类识别信息DB之构成例的图。

图21是表示执行账票种类识别程序的计算机的图。

附图标记说明:

10账票种类识别装置

11输入部

12输出部

13存储部

13a账票种类识别信息DB

14控制部

14a字符辨认部

14b字符信息排列部

14c部分字符串生成部

14d字符串对照部

14e账票种类决定部

14f关键字选择部

20计算机

21输入部

22输出部

23HDD(Hard Disk Drive)

24RAM(Random Access Memory)

25ROM(Read Only Memory)

26CPU(CentralProcessingUnit)

30总线

具体实施方式

以下参照附图详细地说明本发明所涉及的账票种类识别程序、账票种类识别方法以及账票种类识别装置之实施例。此外,下面在将本发明所涉及的账票种类识别装置作为实施例1进行说明以后,对本发明所包含的其他实施例进行说明。

实施例1

[账票种类识别装置之概要以及特征(实施例1)]

首先,利用图1以及图2来说明实施例1所涉及的账票种类识别装置之概要以及特征。图1是用于说明实施例1所涉及的账票种类识别装置之概要以及特征的图。图2是用于说明实施例1所涉及的部分字符串之生成的图。

实施例1所涉及的账票种类识别装置其概要如下:接受与账票上所填写的字符串有关的字符信息(账票上的坐标组成的位置信息及用于确定字符的字符代码组成的信息)以及与格线有关的格线信息(用账票上的坐标来表示格线的起点以及终点的信息及单元格信息组成的信息)的输入,并对填写了字符信息以及格线信息的账票的账票种类(例如“申请书”或“交货单”等账票类别)进行识别,但主要特征在于可以实现高精度的账票种类识别这一点。

对这一主要特征具体地进行说明,就是实施例1所涉及的账票种类识别装置如图1所示那样与各账票种类对应地预先保持账票种类识别信息DB,该账票种类识别信息DB存储了成为用于识别账票种类的关键(key)的多个关键字(keyword)。

而且,若接受了与账票上所填写的字符串有关的字符信息以及与格线有关的格线信息的输入,则实施例1所涉及的账票种类识别装置,对账票上所填写的字符串进行排列(参照图1的(1))。具体地进行说明,就是基于字符信息以及格线信息使账票上所填写的所有字符从左起排成一列,并在横方向上观看经过排列的字符串的情况下,分别生成在字符高度重叠的范围对字符串进行分割后的组字符串并进行排列。此外,实施例1所涉及的账票种类识别装置在生成了组字符串以后,当在组字符串内包含格线的情况下用格线进一步分割组字符串并进行排列。

另外,实施例1所涉及的账票种类识别装置利用账票种类识别信息DB中所存储的多个关键字,对每个关键字分别生成用于与账票上所填写的字符串进行对照的多个部分字符串(参照图1的(2))。

利用图2具体地进行说明,就是实施例1所涉及的账票种类识别装置,例如,若从用户接受了部分字符串的字符数的输入,则从账票种类识别信息DB13a按每个账票种类读入所有关键字。而且,例如在作为账票种类“申请书”的关键字从账票种类识别信息DB中所存储的3字符的关键字“申请书”生成2字符的部分字符串的情况下,将关键字上的各个字符“申”、“请”、“书”当作“0”或者“1”,不重复地仅对2字符分配“1”。接着,通过挑选所有将被分配“1”的部分看作字符而成的字符串来生成部分字符串(0:“申书”、1:“申请”、2:“请书”)。此外,通过用二进制数来表达3到6来取得分配“1”的位置。

接着,实施例1所涉及的账票种类识别装置分别对照经过排列的各组字符串和所生成的各部分字符串(参照图1的(3))。若具体地进行说明,则,首先实施例1所涉及的账票种类识别装置采用DP(DynamicProgramming)匹配或图表理论等一般的字符辨认方法来对照各组字符串和各部分字符串。

而且,实施例1所涉及的账票种类识别装置对于对照成功了的各部分字符串,按每个关键字取得各部分字符串相对于各组字符串的对照率最大时的正确解字符数。例如,在某3个组字符串和从关键字“申请书”所生成的2字符的各部分字符串(“申书”、“申请”、“请书”三个)的对照率(将部分字符串的正确解数用成为该部分字符串来源的关键字的字符数进行了除法运算的值)为66%、50%、25%的情况下,取得对照率最大即66%时的正确解字符数。此外,通过使用部分字符串的字符数和部分字符串相对于组字符串的正确解数进行换算来取得正确解字符数。

在按每个关键字取得了各正确解字符数以后,实施例1所涉及的账票种类识别装置使用各正确解字符数对每个账票种类计算出评价了是该账票种类的可能性的评价值以决定账票种类(参照图1的(4))。具体地进行说明,就是,实施例1所涉及的账票种类识别装置对每个账票种类将各正确解字符数的总数用各关键字中所使用的字符的总数进行除法运算来计算评价值。而且,判定对每个账票种类计算出的各评价值是否超过对每个账票种类所规定的阈值,作为判定结果,舍弃与未超过阈值的评价值相对应的账票种类。另一方面,在作为判断结果与超过阈值的评价值相对应的账票种类仅存在一个的情况下,决定为该账票种类并进行输出,在与超过阈值的评价值相对应的账票种类存在多个的情况下,根据评价值的高低将各账票种类排序并进行输出。

通过这样做,实施例1所涉及的账票种类识别装置,可以如上述的主要特征那样实现高精度的账票种类识别。

[账票种类识别装置之构成(实施例1)]

下面,利用图3~图12来说明实施例1所涉及的账票种类识别装置之构成。图3是表示实施例1所涉及的账票种类识别装置之构成的框图。图4是表示实施例1所涉及的账票种类识别信息DB中所存储的信息之构成例的图。图5是表示实施例1所涉及的字符串之排列例的图。图6是表示实施例1所涉及的组字符串之生成方法的图。图7~图9是表示实施例1所涉及的组字符串和部分字符串之对照方法的图。图10是表示实施例1所涉及的组字符串和部分字符串之对照例的图。图11是表示实施例1所涉及的换算表之构成例的图。图12是表示实施例1所涉及的账票种类之输出例的图。

如图3所示那样,实施例1所涉及的账票种类识别装置10由输入部11、输出部12、存储部13、控制部14所构成。此外,在该图中,仅仅记载在实现实施例1所涉及的账票种类识别装置上所需要的处理部,对于其他的处理部则省略记载。

其中,输入部11是接受各种信息输入的输入部,具备键盘及鼠标、麦克风等而构成,例如接受并输入由关键字生成的部分字符串长度(字符数)等。此外,在输入部11中还进一步具备数据读取功能,读取账票的图像数据并输出到后述的字符辨认部14a。

另外,输出部12是输出各种信息的输出部,具备监视器(或者是显示器、触摸面板)及扬声器而构成,例如除显示输出通过输入部11所读入的账票的图像数据外,还显示输出后述的账票种类决定部14e的处理结果。

存储部13是存储基于控制部14的各种处理所需要的数据以及程序的存储部,尤其是作为与本发明密切关联的部件具备账票种类识别信息DB13a。

此账票种类识别信息DB13a是存储后述的部分字符串生成部14c的部分字符串生成处理所需要的信息的存储部,具体而言,如图4所例示那样,与账票种类(例如、“交货单”、“报价单”、“申请书”等)对应地存储成为用于识别账票种类的关键的多个关键字(例如、“交货单”、“交货日”、“合计金额”等)而构成。

控制部14是具有用于保存规定的控制程序、规定了各种处理步骤等的程序以及所需数据的内部存储器,并通过它们来执行各种处理的处理部,尤其是作为与本发明密切关联的部件具备字符辨认部14a、字符信息排列部14b、部分字符串生成部14c、字符串对照部14d、账票种类决定部14e。

其中,字符辨认部14a是从账票的图像数据中取得字符信息以及格线信息的处理部。若具体地进行说明,则,从由输入部11所接受的账票的图像数据中取得字符信息(账票上的坐标组成的位置信息及用于确定字符的字符代码组成的信息)、以及与格线有关的格线信息(用账票上的坐标来表示格线的起点以及终点的信息及单元格信息组成的信息)并输出到字符信息排列部14b。

字符信息排列部14b是基于从字符辨认部14a所接受的字符信息以及格线信息来排列账票上所填写的字符串的处理部。若具体地进行说明,则,如图5所例示那样,在基于字符信息以及上述格线信息使全部字符从左起排成一列后,在横方向上观看经过排列的字符串的情况下,分别生成在字符高度重叠的范围对字符串进行了分割后的组字符串(例如从第1组到第7组的组字符串)并进行排列。

即,字符信息排列部14b在使全部字符从左起排成一列后,在横方向上观看经过排列的字符串,如图6所例示那样,例如观看“申”的字符的高度和位于“申”右侧的“请”的字符的高度是否重叠。而且,在“申”的字符的高度和“请”的字符的高度重叠的情况下作为一组来进行处理,观看“申请”的字符串的高度和位于“请”的右侧的“书”字符的高度是否重叠,在重叠的情况下作为一组来进行处理。此外,在生成了组字符串以后,在组字符串内包含格线的情况下,进一步用格线分割组字符串并进行排列。

此外,在账票上所填写的字符串以竖写方式存在的情况下,如上述所说明的那样,进行与账票上所填写的字符串以横写方式存在的情况同样的处理。即,字符信息排列部14b在将全部字符从上起排成一列后,在纵方向上观看经过排列的字符串,例如在字符的宽度重叠的情况下,作为组字符串来处理。

部分字符串生成部14c是利用账票种类识别信息DB13a中所存储的多个关键字,对每个关键字分别生成用于与账票上所填写的字符串进行对照的多个部分字符串的处理部。

具体地进行说明,若经由输入部11接受了部分字符串的字符数的输入,部分字符串生成部14c,则从账票种类识别信息DB13a按每个账票种类读入所有关键字。而且,例如在作为账票种类“申请书”的关键字,从账票种类识别信息DB13a中所存储的3字符关键字“申请书”生成2字符部分字符串的情况下,将关键字上的各个字符“申”、“请”、“书”当作“0”或者“1”,不重复地仅对2字符分配“1”。接着,通过挑选所有将被分配“1”的部分看作字符而成的字符串来生成部分字符串(0:“申书”、1:“申请”、2:“请书”)。

此外,例如在从3字符关键字生成2字符部分字符串的情况下通过用二进制数对3到6进行变换,并生成由“0”以及“1”组成的2值表示来取得分配“1”的位置。

字符串对照部14d是对由字符信息排列部14b所生成排列的各组字符串、和由部分字符串生成部14c所生成的各部分字符串分别进行对照的处理部。若具体地进行说明,则,首先如图7~图9所示例那样,采用DP(Dynamic Programming)匹配或图表理论等一般的字符辨认方法来对照各组字符串和各部分字符串。

而且,字符串对照部14d对于对照成功了的各部分字符串,对每个关键字取得各部分字符串相对于各组字符串的对照率最大时的正确解字符数。

首先,如图10所例示那样,若对照组字符串“申请书”和从关键字“申请书”所生成的2字符的各部分字符串(“申书”、“申请”、“请书”三个),则部分字符串的正确解数为“3”,而部分字符串的字符数为“2”。通过将此部分字符串的正确解数“3”以及部分字符串的字符数“2”适用于图11所例示那样的换算表来换算正确解字符数。详细而言,在部分字符串的字符数为“2”的情况下将换算表的“m=2”行前进到部分字符串的正确解数为“3”的位置。而且,在该列的最上段所记载的换算表的“n’”的值、也就是“n’=3”就成为关键字“申请书”的正确解字符数。

同样,若以对照组字符串“申边书”和从关键字“申请书”所生成的2字符的各部分字符串(“申书”、“申请”、“请书”三个)的情况(参照图10)为例,则部分字符串的正确解数为“1”,部分字符串的字符数为“2”,所以若适用于换算表则正确解字符数就成为“n’=2”。

这样,即便是相同的关键字,正确解字符数也因组字符串而异,所以例如在某3个组字符串和从关键字“申请书”所生成的2字符的各部分字符串(“申书”、“申请”、“请书”三个)的对照率为66%、50%、25%的情况下,取得对照率最大即66%时的正确解字符数。这里,所谓对照率,设为将部分字符串的正确解数用作为该部分字符串来源的关键字的字符数进行了除法运算后的值。这样,通过用从关键字所生成的部分字符串进行对照,即便在组字符串中有错误字符的情况下也能够应对。

账票种类决定部14e是使用在字符串对照部14d中对每个关键字所取得的各正确解字符数,对每个账票种类计算出评价了是该账票种类的可能性的评价值以决定账票种类的处理部。若具体地进行说明,则,对每个账票种类将各正确解字符数的总数用各关键字中所使用的字符的总数进行除法运算来计算评价值。而且,判定对每个账票种类计算出的各评价值是否超过对每个账票种类所规定的阈值,作为判断结果,分别舍弃与未超过阈值的各评价值相对应的账票种类,在与超过阈值的评价值相对应的账票种类仅存在一个的情况下,决定为该账票种类并进行输出。

另外,账票种类决定部14e,在作为判定对每个账票种类计算出的评价值是否超过对每个账票种类规定的阈值的结果,存在多个与判定为超过阈值的评价值相对应的账票种类的情况下,也可以根据评价值的高低将各账票种类排序后进行输出(参照图12),也可以决定为评价值最高的账票种类并进行输出。

[账票种类识别装置之处理(实施例1)]

接着,利用图13~图15来说明实施例1所涉及的账票种类识别装置之处理。图13是表示实施例1所涉及的字符串排列处理之流程的流程图。图14是表示实施例1所涉及的部分字符串生成处理之流程的流程图。图15是表示实施例1所涉及的账票种类决定处理之流程的流程图。

[字符串排列处理(实施例1)]

首先,利用图13来说明实施例1所涉及的字符串排列处理之流程。如该图所示那样,字符信息排列部14b基于从字符辨认部14a所接受的字符信息以及格线信息使账票上所填写的全部字符从左起排成一列(步骤S1301)。

接着,字符信息排列部14b将经过排列的字符串分成组(步骤S1302),并生成组字符串。具体而言,就是在横方向上观看经过排列的字符串的情况下,在字符高度重叠的范围(参照图5)来分割字符串。

在生成了组字符串以后,字符信息排列部14b在组字符串内包含格线的情况下利用格线来分割组字符串(步骤S1303)并将其排列。

此外,在账票上所填写的字符串以竖写方式存在的情况下,如上述所说明的那样,进行与账票上所填写的字符串以横写方式存在的情况同样的处理。即,字符信息排列部14b在将全部字符从上起排成一列后,在纵方向上观看经过排列的字符串,例如在字符的宽度重叠的情况下作为组字符串来处理。

[部分字符串生成处理(实施例1)]

接着,利用图14来说明实施例1所涉及的部分字符串生成处理之流程。如该图所示那样,若经由输入部11接受了部分字符串的字符数的输入(步骤S1401),部分字符串生成部14c,则从账票种类识别信息DB13a按每个账票种类读入所有关键字(步骤S1402)。

而且,部分字符串生成部14c利用账票种类识别信息DB13a中所存储的多个关键字,对每个关键字分别生成用于与账票上所填写的字符串进行对照的多个部分字符串(步骤S1403)。

若具体地进行说明,则,部分字符串生成部14c,例如在作为账票种类“申请书”的关键字从账票种类识别信息DB13a中所存储的3字符的关键字“申请书”生成2字符的部分字符串的情况下,将关键字上的各个字符“申”、“请”、“书”当作“0”或者“1”,不重复地仅对2字符分配“1”。接着,通过挑选所有将被分配“1”的部分看作字符而成的字符串来生成部分字符串(0:“申书”、1:“申请”、2:“请书”)。

此外,例如在从3字符的关键字生成2字符的部分字符串的情况下通过用二进制数对3到6进行变换,并生成由“0”以及“1”组成的2值表示来取得分配“1”的位置。

[账票种类决定处理(实施例1)]

接着,利用图15来说明实施例1所涉及的账票种类决定处理之流程。如该图所示那样,账票种类决定部14e利用在字符串对照部14d中对每个关键字所取得的各正确解字符数,对每个账票种类计算出评价了是该账票种类的可能性的评价值(步骤S1501)。

而且,账票种类决定部14e判定对每个账票种类计算出的各评价值是否超过对每个账票种类规定的阈值,作为判定结果,分别舍弃与未超过阈值的各评价值相对应的账票种类(步骤S1502),在与超过阈值的评价值相对应的账票种类仅存在一个的情况下,决定为该账票种类并进行输出。

另外,在作为判定结果,与被判定为超过阈值的评价值相对应的账票种类存在多个的情况下,根据评价值的高低将各账票种类排序并进行输出(步骤S1503)。

[实施例1的效果]

如上述那样,根据实施例1,与各账票种类(例如“申请书”或“交货单”、“报价单”等)对应地分别在存储部中存储成为用于识别账票种类的关键的多个关键字(例如若是“申请书”就是“申请书”、“申请日”、“住所”、“姓名”等账票上所填写的信息),并利用存储部中所存储的多个关键字,对每个关键字分别生成用于与账票上所填写的字符串进行对照的多个部分字符串(例如若是“申请书”则是“申请”、“请书”以及“申书”等3字符中2字符组成的字符串),并基于与账票上所填写的字符串有关的字符信息以及与格线有关的格线信息,在横方向上观看账票上所填写的字符串的情况下,分别生成在字符高度重叠的范围对该字符串进行分割后的组字符串并且进行排列,分别对照各组字符串和各部分字符串,对每个关键字取得各部分字符串相对于各组字符串的对照率最大时的一致字符数,利用所取得的各一致字符数对每个账票种类计算评价了是该账票种类的可能性的评价值(例如,将组字符串和部分字符串的一致字符数用全关键字的字符数进行了除法运算的值),并基于对每个账票种类计算出的各评价值来决定与已填写字符信息以及格线信息的账票相对的账票种类,所以就可以实现高精度的账票种类识别而不会局限于如与预先保持的账票识别用的关键字对应那样的组字符串的抽取。另外,即便在账票上所填写的字符串之中存在错误、或者在字符串的辨认结果中有错误的情况下,也能够通过利用了部分字符串的对照而计算出考虑了部分一致的评价值,可以实现高精度的账票种类识别。

另外,根据实施例1,判定对每个账票种类计算出的各评价值是否超过对每个账票种类所规定的阈值来决定与已填写字符信息以及格线信息的账票相对的账票种类,所以就可以用简易的方法来决定账票种类。

另外,根据实施例1,判定对每个账票种类计算出的各评价值是否超过对每个账票种类所规定的阈值,并在与被判定为超过阈值的评价值相对应的账票种类存在多个的情况下根据评价值的高低将存在多个的账票种类排序,所以就可以将账票种类的候补排序后提供给用户。

另外,根据实施例1,判定对每个账票种类计算出的各评价值是否超过对每个账票种类所规定的阈值,并在与被判定为超过阈值的评价值相对应的账票种类存在多个的情况下,决定为评价值最高的账票种类,所以就可以将最有可能的账票种类作为账票种类的候补提供给用户。

另外,根据实施例1,在根据字符信息以及格线信息判明了在组字符串内存在格线的情况下,用格线来分割组字符串,所以就可以在构成正规词句的范围对组字符串进行分割。

实施例2

虽然在上述实施例1中说明了从账票种类识别信息DB13a中按每个账票种类读入所有关键字,并对每个关键字生成多个部分字符串的情况,但本发明并不限定于此,还可以任意地选择将要使用的关键字。

若具体地进行说明,则,如图16所示例那样,将对每个关键字规定了可否使用的使用标志(将使用的情况设为“0”、不使用的情况设为“-1”的标志)存储在账票种类识别信息DB13a中。而且,部分字符串生成部14c选择使用标志为“0”的关键字,并从账票种类识别信息DB13a中按每个账票种类进行读入(参照图17),对所读入的每个关键字生成多个部分字符串。

通过这样,根据实施例2,在账票种类识别信息DB13a中进一步存储对多个关键字的每个规定了可否使用的使用标志,并基于所存储的使用标志从多个关键字信息之中选择已许可使用的关键字信息,使用所选择的关键字信息对每个账票种类分别生成多个部分字符串,所以就能够仅仅使用预先保持的关键字之中的需要的关键字,另外与用所有关键字进行处理相比较可以减少处理时间。

实施例3

虽然在上述实施例1中,说明了根据各组字符串和各部分字符串的对照结果直接决定账票种类的情况,但本发明并不限定于此,还可以利用账票种类决定处理的结果来变更关键字,并使用变更后的关键字以递归的方式反复进行了处理以后,决定账票种类。因而,在下面利用图18以及图19对实施例3所涉及的账票种类识别装置的构成进行了说明以后,说明实施例3的效果。图18是表示实施例3所涉及的账票种类识别装置之构成的框图。图19是表示实施例3所涉及的关键字变更之流程的图。

[账票种类识别装置之构成(实施例3)]

首先,利用图18来说明实施例3所涉及的账票种类识别装置之构成。实施例3所涉及的账票种类识别装置之构成与实施例1所涉及的账票种类识别装置的构成基本上相同,但以下将要说明的几点不同。

即,账票种类识别信息DB13a对每个账票种类存储按规定的层次划分后的关键字(参照图19)。作为按层次进行划分的方法之一例,可以根据账票种类固有的关键字按顺序以第“0”层次、第“1”层次这样的形式来进行划分。

关键字选择部14f向部分字符串生成部14c输出指示以使仅仅选择第“0”层次的关键字来生成部分字符串(参照图19)。

与上述实施例1中所说明的相同,在字符信息排列部14b、部分字符串生成部14c以及字符串对照部14d中进行了处理以后,账票种类决定部14e判定对每个账票种类计算出的各评价值是否超过对每个账票种类规定的阈值,作为判断结果,分别舍弃与未超过阈值的各评价值相对应的账票种类,将与超过阈值的各评价值相对应的账票种类进行缩选,并将缩选后的各账票种类的信息分别输出给关键字选择部14f。此外,在各评价值全部未超过阈值的情况下账票种类决定部14e对关键字选择部14f输出表示不存在与超过阈值的评价值相对应的账票种类的信息。

若从账票种类决定部14e接受了各账票种类的信息,则,关键字选择部14f,对部分字符串生成部14c输出指示,从使从与所接受的账票种类的信息相对应的关键字信息之中仅仅选择第“1”层次的关键字并生成部分字符串。此外,关键字选择部14f,在从账票种类决定部14e接受到表示不存在与超过阈值的评价值相对应的账票种类的信息的情况下,对部分字符串生成部14c输出指示,以使对于全部账票种类仅仅选择第“1”层次的关键字并生成部分字符串(参照图19)。

而且,再次在部分字符串生成部14c以及字符串对照部14d中进行了处理以后,账票种类决定部14e判定对每个账票种类计算出的各评价值是否超过对每个账票种类规定的阈值,作为判断结果,舍弃与未超过阈值的评价值相对应的账票种类。另一方面,在与超过阈值的各评价值相对应的账票种类例如被缩选成规定数量的情况下,既可以根据评价值的高低将各账票种类排序后进行输出,也可以决定为评价值最高的账票种类并进行输出。

此外,还可以预先设定在部分字符串生成部14c、字符串对照部14d、账票种类决定部14e以及关键字选择部14f之间以递归方式反复进行处理的处理次数,将到达了所设定的处理次数的时间点的账票种类进行输出。

[实施例3的效果]

如上述那样,根据实施例3,每当对每个账票种类计算出各评价值时,基于各评价值将账票种类的候补进行缩选(例如将评价值最低的除去等,缩选成有可能性作为账票种类的账票种类的候补),每当账票种类的候补被缩选时,从存储部中所存储的多个关键字信息之中,根据已缩选的账票种类的候补来变更关键字信息,每当关键字信息被变更时,使用经过变更的关键字信息分别生成多个部分字符串,每当生成多个部分字符串时,分别对照各组字符串和各部分字符串,对每个关键字信息取得各部分字符串相对于各组字符串的对照率最大时的一致字符数,并利用所取得的各一致字符数,按每个账票种类计算出对每个账票种类评价了是该账票种类的可能性的评价值,所以不会使用明显不需要的账票种类的关键字进行处理而可以使处理时间以及处理次数减少,并且可以实现精度更高的账票种类识别。

实施例4

那么,到此为止对本发明的实施例1~实施例3进行了说明,但本发明除上述的实施例以外还可以以各种各样不同的方式来实施。因而,在下面说明本发明所包含的其他实施例。

(1)按每组保持关键字

在上述实施例中还可以按含义相同的每个组分别在账票种类识别信息DB13a中存储多个关键字。具体而言,如图20所示例那样,对于账票种类“交货单”将含义相同的“交货日”、“搬入日”以及“寄送日”作为“交货日”关键字组分别进行存储。

而且,分别对照各组字符串和各部分字符串,并从各组内的多个关键字之中分别抽取各部分字符串相对于各组字符串的对照率最大的关键字(例如如果是关键字组“交货日”,则从“交货日”、“搬入日”、“寄送日”之中抽取对照率最大的关键字),与上述所说明的实施例同样地,对于所抽取出的各关键字分别取得一致字符数,并使用所取得的各一致字符数对每个账票种类计算出评价了是该账票种类的可能性的评价值,所以可以实现高精度的账票种类识别。

即,例如,对于账票种类“申请书”,将“申请日”和“填写日”作为持有相同含义的一个组来处理,如果在根据“申请日”以及“填写日”所生成的部分字符串和根据账票的字符信息以及格线信息所生成的组字符串的吻合度之中的、与根据“申请日”所生成的部分字符串的吻合度较高则使用与根据“申请日”所生成的部分字符串之间的一致字符数来计算评价值,所以就能够实现高精度的账票种类识别而不会使评价值降低。

(2)装置构成等

另外,图3以及图18所示的账票种类识别装置10的各构成要素是功能概念性的要素,不需要在物理上务必如图示那样来构成。即,账票种类识别装置10的分散/合并的具体方式并不限于图示情形,例如还能够将字符串对照部14d和账票种类决定部14e进行合并等、根据各种负荷及使用状况等将其全部或者一部分以任意的单位在功能上或者物理上进行分散/合并而构成。进而,由账票种类识别装置10所进行的各处理功能其全部或者任意一部分还可以用CPU以及由CPU所解析执行的程序来实现,或者作为基于布线逻辑的硬件来实现。

(3)账票种类识别程序

可是,能够通过将预先准备好的程序在个人计算机或工作站等计算机系统上执行来实现上述实施例所说明的各种处理。因而,以下利用图21来说明执行具有与上述实施例相同功能的账票种类识别程序的计算机之一例。图21是表示执行账票种类识别程序的计算机的图。

如该图所示那样,计算机20作为账票种类识别装置利用总线30将输入部21、输出部22、HDD23、RAM24、ROM25以及CPU26连接起来而构成。此外,输入部21以及输出部22分别对应于图3或者图18所示的账票种类识别装置10的输入部11以及输出部12。

而且,在ROM25中预先存储有发挥与上述实施例所示的账票种类识别装置相同的功能的账票种类识别程序、也就是说如图21所示那样预先存储有字符辨认程序25a、字符信息排列程序25b、部分字符串生成程序25c、字符串对照程序25d、账票种类决定程序25e以及关键字选择程序25f。此外,关于这些程序25a、25b、25c、25d、25e以及25f还可以与图3或者图18所示的账票种类识别装置10的各构成要素同样,适当地进行合并或者分散。此外,ROM25也可以是非易失性的“RAM”。

而且,CPU26从ROM25读出这些程序25a、25b、25c、25d、25e以及25f并执行,由此如图21所示那样各程序25a、25b、25c、25d、25e以及25f作为字符辨认进程26a、字符信息排列进程26b、部分字符串生成进程26c、字符串对照进程26d、账票种类决定进程26e以及关键字选择进程26f而发挥功能。此外,各进程26a、26b、26c、26d、26e以及26f分别对应于图3或者图18所示的账票种类识别装置10的字符辨认部14a、字符信息排列部14b、部分字符串生成部14c、字符串对照部14d、账票种类决定部14e以及关键字选择部14f。

另外,在HDD23中,如图21所示那样设置有账票种类识别信息数据表23a。此外,账票种类识别信息数据表23a对应于图3或者图18所示的账票种类识别信息DB13a。而且,CPU26从账票种类识别信息数据表23a中读出账票种类识别信息数据24a并保存在RAM24中,并基于RAM24中所保存的账票种类识别信息数据24a来执行处理。

此外,关于上述的各程序25a、25b、25c、25d、25e以及25f,未必需要最初就将其存储在ROM25中,例如还可以将各程序存储在计算机20上所插入的软盘(FD)、CD-ROM、DVD盘、光磁盘、IC卡等“可移动物理介质”中,或者,存储在计算机20的内外所具备的HDD等“固定用物理介质”中,进而,存储在通过公共线路、因特网、LAN、WAN等连接到计算机20的“其他计算机(或者服务器)”等中,计算机20从它们中读出各程序并进行执行。

工业上的可利用性

如以上那样,本发明所涉及的账票种类识别程序、账票种类识别方法以及账票种类识别装置,在使计算机执行账票种类识别处理,即接受与账票上所填写的字符串有关的字符信息以及与格线有关的格线信息的输入,并对填写了该字符信息以及该格线信息的账票的账票种类进行识别,等情况下有用,尤其适合于实现高精度的账票种类识别。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号