首页> 中国专利> 用于从流程图图像中自动提取信息的系统、方法和计算机程序产品

用于从流程图图像中自动提取信息的系统、方法和计算机程序产品

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

一种从流程图图像中提取信息的方法，该流程图图像包括：其中封围有文本的多个封闭形状的数据节点、连接多个封闭形状的数据节点的连接线以及与连接线相邻的自由文本，该方法包括：接收流程图图像、检测封闭形状的数据节点、对被封围在封闭形状的数据节点内的文本进行定位、以及对经定位文本施加掩模，以生成带注释的图像。检测带注释的图像中的线，以将其重建为封闭形状的数据节点和连接线。提取具有多个封闭形状的数据节点和连接线的树框架。接着，对自由文本进行定位。使用基于定向的二维聚类，将近侧定向和定位在一起的自由文本的分块组装成文本块。

著录项

公开/公告号CN114930408A

专利类型发明专利
公开/公告日2022-08-19

原文格式PDF
申请/专利权人爱思唯尔股份有限公司;
展开▼

申请/专利号CN202080084922.9
发明设计人 A·卡克拉纳;K·拉哈;
展开▼

申请日2020-11-10
分类号G06V30/224(2022.01);G06V30/412(2022.01);G06V30/413(2022.01);G06V30/414(2022.01);G06V30/416(2022.01);G06V30/10(2022.01);
代理机构上海专利商标事务所有限公司 31100;上海专利商标事务所有限公司 31100;
代理人侯颖媖;张鑫
地址美国纽约州
入库时间 2023-06-19 16:25:24

法律信息

法律状态公告日

法律状态信息

法律状态
2022-10-25

实质审查的生效 IPC(主分类):G06V30/224 专利申请号:2020800849229 申请日:20201110

实质审查的生效

说明书

技术领域

本说明书大体涉及用于使用计算机视觉技术从图像中检索信息的系统、方法和计算机程序产品，更具体地，涉及用于使用计算机视觉技术从流程图图像中自动提取信息的系统、方法和计算机程序产品。

背景技术

流程图通常用于各种领域，并且以简明和结构化的形式表示人类编策的知识。医学和科学领域充满关于症状、观察和诊断的流程图，这些流程图可用于临床决策支持、内容搜索系统、自动问题生成等。流程图的图像可具有不同的形状、大小、流程类型、格式、颜色、内容密度、质量、字体、图像分辨率等。因此，期望有从流程图中完整并准确地提取信息的方法，以便将信息编译成可搜索和交互式的格式，以便随后在准备例如机器可学习资产和交互式知识库中受益。

发明内容

本说明书涉及用于从流程图图像中自动提取信息的系统、方法和计算机程序产品，流程图图像包括以下各项中的一项或多项：其中包围有文本的多个封闭形状的数据节点、连接多个封闭形状的数据节点中的一者或多者的连接线、以及与连接线相邻的自由文本。在一个实施例中，用于从流程图图像中提取信息的方法从接收作为电子图像文件的流程图图像开始。该方法包括检测多个封闭形状的数据节点，并对被封围在多个封闭形状的数据节点内的文本进行定位。对多个封闭形状的数据节点内的经定位文本施加掩模，以生成带注释的图像。然后生成自由文本中字符尺寸的统计大小分布，以识别连接线。该方法进一步包括检测带注释的图像中的线，以将其重建为封闭形状的数据节点和连接线。接着，该方法包括提取具有多个封闭形状的数据节点和检测到的连接线的树框架。该方法进一步包括对与连接线相邻的自由文本进行定位，并使用基于定向的二维聚类将近侧定向和定位在一起的自由文本分块组装成文本块。

在另一实施例中，一种用于从流程图图像中提取信息的系统，该系统包括以下各项中的一项或多项：其中封围有文本的多个封闭形状的数据节点、连接多个封闭形状的数据节点中的一者或多者的连接线、以及与连接线相邻的自由文本。该系统包括处理器和耦合到处理器的非瞬态处理器可读存储器。非瞬态处理器可读存储器包括存储在其中的机器可读指令集，当由处理器执行时，该机器可读指令集使处理器从接收作为电子图像文件的流程图图像开始执行一系列步骤。检测多个封闭形状的数据节点，并对被封围在多个封闭形状的数据节点内的文本进行定位。对多个封闭形状的数据节点内的经定位文本施加掩模，以生成带注释的图像。然后生成自由文本中字符尺寸的统计大小分布，以识别连接线。然后检测带注释的图像中的线，以将其重建为封闭形状的数据节点和连接线。提取具有多个封闭形状的数据节点和检测到的连接线的树框架。接着，对与连接线相邻的自由文本进行定位，并使用基于定向的二维聚类将近侧定向和定位在一起的自由文本分块组装成文本块。

在又另一实施例中，一种用于从流程图图像中提取信息的计算机程序产品包括以下各项中的一项或多项：其中封围有文本的多个封闭形状的数据节点、连接多个封闭形状的数据节点中的一者或多者的连接线、以及与连接线相邻的自由文本。计算机程序产品包括编程指令，当由计算机执行时，该编程指令使计算机从接收作为电子图像文件的流程图图像开始执行一系列步骤。检测多个封闭形状的数据节点，并对被封围在多个封闭形状的数据节点内的文本进行定位。对多个封闭形状的数据节点内的经定位文本施加掩模，以生成带注释的图像。然后生成自由文本中字符尺寸的统计大小分布，以识别连接线。然后检测带注释的图像中的线，以将其重建为封闭形状的数据节点和连接线。提取具有多个封闭形状的数据节点和检测到的连接线的树框架。接着，对与连接线相邻的自由文本进行定位，并使用基于定向的二维聚类将近侧定向和定位在一起的自由文本分块组装成文本块。接下来，使用字符识别算法识别经定位文本和文本块中的字符。最后，树框架、经定位文本和文本块被编译成具有可搜索和交互式电子文件格式的流程图文件，该电子文件格式被配置成使流程图文件具有比电子图像文件更小的大小。

鉴于下面的详细描述，将结合附图更充分地理解由本文所描述的实施例提供的这些和其他特征。

附图说明

附图中阐述的实施例本质上是说明性的和示例性的，并且不旨在限制由权利要求所限定的主题。当结合以下附图阅读时，可以理解对说明性实施例的以下详细描述，其中，用类似的附图标记指示类似的结构，并且其中：

图1示意性地描绘了根据本文示出并描述的一个或多个实施例的用于从流程图图像中自动提取信息的示例计算网络；

图2示意性地描绘了根据本文示出并描述的一个或多个实施例的用于从流程图图像中自动提取信息的示例计算设备；

图3描绘了根据本文示出并描述的一个或多个实施例的由图2的示例计算设备接收的示例流程图图像；

图4描绘了根据本文示出并描述的一个或多个实施例的从流程图图像中提取信息的示例方法的框图；

图5描绘了根据本文示出并描述的一个或多个实施例的检测多个封闭形状的数据节点的示例方法的框图，该示例方法是图4的方法的一部分；

图6描绘了根据本文示出并描述的一个或多个实施例的对被封围在多个封闭形状的数据节点内的文本进行定位的示例方法的框图，该示例方法是图4的方法的一部分；

图7描绘了根据本文示出并描述的一个或多个实施例的检测带注释图像中的线以将这些线重建为封闭形状的数据节点和连接线的示例方法的框图，该示例方法是图4的方法的一部分；

图8描绘了根据本文示出并描述的一个或多个实施例的提取具有多个封闭形状的数据节点和经检测的连接线的树框架的示例方法的框图，该示例方法是图4的方法的一部分；

图9A-9C描绘了根据本文示出并描述的一个或多个实施例的基于连接线之间的接近度、二维空间中任意两条连接线之间的重叠以及连接线的几何斜率来组装检测到的连接线的说明性示例，该说明性示例是图8的方法的一部分；

图10描绘了根据本文示出并描述的一个或多个实施例的对与连接线相邻的自由文本进行定位的示例方法的框图，该示例方法是图4的方法的一部分；并且

图11描绘了根据本文示出并描述的一个或多个实施例的使用基于定向的二维聚类将近侧定向和定位在一起的自由文本组装成文本块的说明性示例，该说明性示例是图4的方法的一部分。

具体实施方式

流程图图像可包括以表示信息的逻辑流的顺序对数据进行视觉或图形表示的(多个)文档。本文中使用的“文档”被广泛定义为包括机器可读和机器可存储的工作产品。例如，文档可包括具有信息及其流的视觉表示的一个或多个单独或组合的文件，并且这些文件可以是一个或多个机器可读和机器可存储的格式(诸如.png、.jpg、.jpeg、.svg、.eps、.pdf等)。本文中使用的“数据库”被广泛定义为包括任意机器可读和机器可存储的信息的集合。数据库可包括图形数据库、SQL数据库等。

本文中使用的“数据节点”被广泛定义为流程图图像(该流程图图像具有被封围在几何形状或非几何形状内的文本或文本块)中的实体或对象，而与大小和其他形态或颜色变化无关。本文中使用的“树框架”被广泛定义为包括流程图图像的非文本部件，包括连接线集(连接符、流线)、几何形状轮廓、非几何形状轮廓等，而与它们的大小、长度和其他形态和颜色变化无关。本文中使用的“自由文本”被广泛定义为包括流程图图像的文本字符(或部件)，这些字符(或部件)与连接线集相邻，且不被几何形状或非几何形状封围，而与位置、字体大小、字体颜色和其他字体属性无关。

本公开的实施例涉及用于从流程图图像自动提取信息的基于计算机的系统、方法和计算机程序产品。假设流程图图像包括三种类型的部件——(i)表示封围有文本的任何几何形状或非几何形状的多个封闭形状的数据节点，(ii)树框架，该树框架包括连接多个封闭形状的数据节点中的一个或多个封闭形状的数据节点作为连接符的线和/或带有箭头的流线(累积地，“连接线集”)，并表示包括几何形状和非几何形状的轮廓的流程图结构，以及(iii)与连接线相邻的自由文本，该自由文本表示支持信息流中的连接和/或决策的证据。为了消除提取过程期间的干扰，按顺序依次提取这三种类型的部件。然而，根据流程图图像和提取过程的要求，三个部件的准确提取顺序在不同的实施例中可以不同。例如，在非限制性示例中，可以在树框架或多个封闭形状的数据节点之前提取与连接线相邻的自由文本。

本文所述的系统、方法和计算机程序产品提供了通用和自适应的机制，用于从具有不同形状、大小、流类型、格式、颜色、内容密度、质量、字体、图像分辨率等的流程图图像中自动提取信息。此类机制可以应用于任何流程图图像，以完整并准确地提取信息并确定其流程和顺序。

下面描述用于从流程图图像自动提取信息的各种实施例。

现在参考附图，图1描绘了根据本文示出并描述的一个或多个实施例的示例性计算机网络100，示出了用于从流程图图像自动提取信息的系统的部件。计算机网络100可以是广域网(诸如因特网)、局域网(LAN)、移动通信网络、公共服务电话网(PSTN)和/或其他网络，并且可被配置成电子地和/或通信地连接用户计算设备102、用于从流程图图像提取信息的计算设备103、以及管理员计算设备104。

用户计算设备102可包括显示器102a、处理单元102b和输入设备102c，其中每个可以通信地耦合在一起和/或耦合至计算机网络100。用户计算设备102可用于使用从流程图图像提取信息的系统和方法的实施例与前端应用程序对接。在一些实施例中，一个或多个计算设备103可实现为通过执行本文描述的一个或多个特定功能步骤来从流程图图像中提取信息。

附加地，包括在图1中的是管理员计算设备104。在用于从流程图图像提取信息的计算设备103需要监督、更新或校正的情况下，管理员计算设备104可被配置成提供所期望的监督、更新、和/或校正。

应当理解，虽然用户计算设备102和管理员计算设备104被描绘为个人计算机并且计算设备103被描绘为服务器，但是这些仅是示例。更具体地，在一些实施例中，任何类型的计算设备(例如，移动计算设备、个人计算机、服务器等)可以用于这些部件中的任何部件。此外，虽然这些计算设备中的每一者在图1中被示出为单件硬件，但是这也是示例。更具体地，用户计算设备102、计算设备103、以及管理员计算设备104中的每一者可以表示多个计算机、服务器、数据库等。例如，用户计算设备102、计算设备103以及管理员计算设备104中的每一个可以形成用于实现本文所述的特定功能步骤的分布式或网格计算框架。

图2描绘了用于从流程图图像中提取信息的计算设备103的内部部件。根据本文所示出和描述的实施例，计算设备103可以利用硬件、软件、和/或固件。虽然在一些实施例中，计算设备103可被配置成具有必要硬件、软件、和/或固件的通用计算机，但是在一些实施例中，计算设备103可被配置成用于执行本文所描述的特定功能步骤而专门设计的专用计算机。

也如图2中所示，计算设备103可包括处理器230、输入/输出硬件232、网络接口硬件234、数据存储部件236、以及存储器部件240。数据存储部件236存储流程图图像语料库238a、经处理和注释的图像238b、数据节点数据238c、树框架数据238d、经定位文本数据238e、自由文本数据238f、以及训练数据238g。存储器部件240可以是机器可读存储器(也可以被称为非瞬态处理器可读存储器)。存储器部件240可以被配置为易失性和/或非易失性存储器并且因此可以包括随机存取存储器(包括SRAM、DRAM和/或其他类型的随机存取存储器)、闪存、寄存器、致密盘(CD)、数字通用盘(DVD)、和/或其他类型的存储部件。存储器部件240被配置成存储操作逻辑242、数据节点逻辑244a、树框架提取逻辑244b、自由文本定位逻辑244c、掩模逻辑244d、统计大小分布逻辑244e、基于定向的二维(2D)聚类逻辑244f、字符识别逻辑244g以及机器学习逻辑244h(作为示例，它们中的每一个都可以实现为计算机程序、固件或硬件)。本地接口246也包括在图2中并且可以被实现为总线或其他接口，以促进计算设备103的部件之间的通信。

处理器230可包括被配置成访问和执行具有编程指令(诸如来自数据存储部件236和/或存储器部件240的编程指令)的计算机程序产品的任何(多个)处理组件。这些指令可以是存储在数据存储部件236和/或存储器部件240中的机器可读指令集的形式。指令可包括以任何世代(例如，1GL、2GL、3GL、4GL或5GL)的任何编程语言编写的逻辑或(多个)算法，诸如例如可由处理器230直接执行的机器语言、或汇编语言、面向对象编程(OOP)、脚本语言、微代码等，其可被编译或汇编成机器可读指令并存储在存储器部件204上。替代地，指令集可以硬件描述语言(HDL)(诸如经由现场可编程门阵列(FPGA)配置或专用集成电路(ASIC)或它们的等效物来实现的逻辑)编写。因此，本文描述的功能可以任何常规计算机编程语言，作为预编程硬件元件，或作为硬件和软件部件的组合来实现。

输入/输出硬件232可包括监视器、键盘、鼠标、打印机、相机、麦克风、扬声器、和/或用于接收、发送和/或呈现数据的其他设备。网络接口硬件234可包括任何有线或无线联网硬件，诸如调制解调器、LAN端口、Wi-Fi卡、WiMax卡、移动通信硬件、和/或用于与其他网络和/或设备通信的其他硬件。

应当理解，数据存储部件236可以驻留在计算设备103(例如，在云存储中)的本地和/或远程，并且可被配置成存储一个或多个数据片段以供计算设备103和/或其他部件访问。如图2中所示，数据存储部件236存储流程图图像语料库238a。流程图图像语料库238a的非限制性示例包括以XML、原始文本或其他格式存在于电子文档数据储存库(诸如书籍、书籍章节、期刊文章、法律文档、出版物摘要、项目摘要、提案、专利等)中的流程图图像。数据存储部件236也可存储经处理和注释的图像238b。经处理和注释的图像238b可包括在从中提取信息的过程的各个阶段期间获得的流程图图像的版本。在一些实施例中，可以使用在实现本文所述方法的特定功能步骤时获得的过程信息或实质性信息对这些版本进行注释。

关于多个封闭形状的数据节点的信息可以存储在数据节点数据238c中。关于包括连接线集的树框架的信息可以存储在树框架数据238d中。关于多个数据节点中的经定位文本的信息可以存储在经定位文本数据238e中。关于与连接线相邻的自由文本的信息可以存储在自由文本数据238f中。数据存储部件236也可包括训练数据238g。训练数据238g可包括从流程图图像语料库238a开发的一个或多个数据集，这些数据集已被注释并被识别为具有准确或不准确的注释。训练数据238g可用于训练用于从流程图图像中提取信息的一个或多个机器学习模型。

存储器部件240包括操作逻辑242、数据节点逻辑244a、树框架提取逻辑244b、自由文本定位逻辑244c、掩模逻辑244d、统计大小分布逻辑244e、基于定向的二维(2D)聚类逻辑244f、字符识别逻辑244g以及机器学习逻辑244h。操作逻辑242可包括用于管理计算设备103的部件的操作系统和/或其他软件。

如下所述，数据节点逻辑244a被配置成检测多个封闭形状的数据节点，并对被封围在多个封闭形状的数据节点内的文本进行定位。数据节点逻辑244a可存储用于此目的的各种算法，包括但不限于坎尼(canny)边缘检测算法、形态变换算法、用于相连部件的方法的算法、轮廓检测算法、统计滤波器、道格拉斯-普克(Douglas–Peucker)算法、霍夫变换算法、定向梯度直方图算法、尺度不变特征变换和胡氏(Hu)不变矩，以及非最大值压缩算法。

如下所述，树框架提取逻辑244b被配置成检测图像中的线，并提取具有多个封闭形状的数据节点和检测到的连接线的树框架。树框架提取逻辑244b可存储用于此目的的各种算法，包括但不限于用于索贝尔(Sobel)算子、沙尔(Scharr)算子、拉普拉斯算子的算法、坎尼边缘检测算法、概率霍夫变换算法、用于确定基于核的线近似结果(approximation)的形态梯度算法和像素检测算法。

如下所述，自由文本定位逻辑244c被配置成对与连接线相邻的自由文本进行定位。自由文本定位逻辑244c可存储用于此目的的各种算法，包括但不限于形态变换算法、轮廓检测算法、以及接近度确定算法。

如下所述，掩模逻辑244d被配置成对流程图图像300的各种部件(诸如多个封闭形状的数据节点内的经定位文本)施加掩模，并且可以存储为此目的配置的定制算法。统计大小分布逻辑244e被配置成生成流程图图像的各种部件(诸如与连接线相邻的自由文本)的统计大小分布，并且可以存储为此目的配置的定制算法。基于定向的2D聚类逻辑244f被配置成将近侧定向和定位在一起的自由文本组装到文本块中，并且可以存储为此目的配置的定制算法。

字符识别逻辑244g被配置成识别经定位文本和文本块中的字符，并且可以存储为此目的配置的定制算法，诸如但不限于光学字符识别(OCR)、智能字符识别(ICR)。机器学习逻辑244h被配置成使用训练数据238g进行训练，并且开发用于从流程图图像提取信息的一个或多个机器学习模型可以存储为此目的配置的定制算法。

图3描绘了由图2中所示的计算设备103作为电子图像文件接收的示例流程图图像300。展开图中也示出了流程图图像300的分段300a。如上所讨论的，流程图图像300具有三种类型的部件——(i)表示封围有文本的任何几何形状或非几何形状的多个封闭形状的数据节点，(ii)树框架，该树框架包括连接多个封闭形状的数据节点中的一个或多个封闭形状的数据节点的线，并表示包括几何形状和非几何形状的轮廓的流程图结构，以及(iii)与连接线相邻并表示支持信息流中的连接和/或决策的证据的自由文本。

图4描绘了从流程图图像300自动提取信息的示例方法400的框图。在框410中，由计算设备103作为电子图像文件接收流程图图像300。处理器230执行存储在存储器240中的机器可读指令集，以从流程图图像300中提取信息。机器可读指令集利用数据节点逻辑244a、树框架提取逻辑244b、自由文本定位逻辑244c、掩模逻辑244d、统计大小分布逻辑244e、基于定向的二维(2D)聚类逻辑244f、字符识别逻辑244g以及机器学习逻辑244h来执行示例方法400的特定功能步骤。

在框415中，检测多个封闭形状的数据节点。图5描绘了在框415处检测多个封闭形状的数据节点的示例方法500的框图。在框510中，将流程图图像300预处理为一个或多个归一化图像，以突出显示多个封闭形状的数据节点中的每一者的几何边缘。如本文所使用的，“突出显示”一词是指与图像前景中的周围特征相比，将特征渲染得更加突出。为此，可使用边缘检测算法和一个或多个形态变换。预处理后的归一化图像在形状、大小、格式、颜色、内容密度、质量、以及图像分辨率方面具有相同或相似的特性，使得它们可以从流程图图像语料库238a中直接读取。流程图图像300在预处理之前最初被转换为期望的图像格式(.png、.jpg等)、调整大小、去噪和锐化。在一些实施例中，预处理涉及以下各项中的一项或多项：(i)使用以下一者或多者进行图像二值化(将流程图图像转换为黑白图像)：简单二值化、自适应二值化和大津(Otsu)二值化，(ii)反转流程图图像300以使其具有黑色背景和白色前景对象，(iii)通过一轮或多轮扩张进行形态变换，以使用适当的结构元素或核大小来扩展白色前景对象，(iv)通过一轮或多轮侵蚀进行形态变换，以使用适当的结构元素或核大小来收缩白色前景对象，以及(v)使用坎尼边缘检测算法进行边缘检测，以突出显示白色前景对象的水平线、垂直线和边缘。此外，可以在流程图图像300上执行预处理的多次迭代，以自适应地突出显示多个封闭形状的数据节点中的每一者的几何边缘，并对封围在多个封闭形状的数据节点内的文本进行散焦。如本文所使用的术语“自适应地”是指选择特定于每个流程图图像300的参数的任何方法，而不是应用于流程图图像300的语料库的全局参数集。因此，在框510的末尾，获得流程图图像300的不同预处理变体。

在框520中，通过使用相连部件的方法来分割流程图图像，从多个封闭形状的数据节点检测几何形状和非几何形状。在框510中获得的流程图图像300的不同预处理变体用于该步骤。假设多个封闭形状的数据节点中的每一者的边界具有颜色和像素密度相似的连接像素集，以便在流程图图像300的不同预处理变体的二值化版本中，可以将边界识别为白色前景对象的相连部件。流程图图像300的每个不同预处理变体被分割为唯一和重叠的部分，以隔离多个封闭形状的数据节点中的一者或多者。可以在图像分割之前添加以像素或距离单位(英寸、厘米、毫米等)为单位的填充，以避免前景像素和分割边缘之间的重叠。然后，通过基于像素的相邻像素的值来标记像素以检测流程图图像300的每个不同预处理变体中的多个封闭形状的数据节点中的每一者的边界。因此，在框520的末尾，以高置信度检测其中封围有文本的几何形状和非几何形状的集合。

在与框520并行操作的框530中，通过使用轮廓检测的方法，从多个封闭形状的数据节点中额外检测几何形状和非几何形状。在框510中获得的流程图图像300的不同预处理变体用于该步骤。如本文中使用的“轮廓”被广泛定义为沿着形成文本字符、几何形状或非几何形状的曲线的边界的所有点或信息量最大的点的集合。首先对流程图图像300的不同预处理变体的二值化版本中的白色前景对象中的多个封闭形状的数据节点进行定位，以检测流程图图像300的每个不同预处理变体中的轮廓集。然后，生成流程图图像300的每个不同预处理变体中的每个轮廓的形态特性(面积、周长、长度、宽度等)的统计分布。假设文本字符的数量超过几何形状和非几何形状的数量，并且形态特性的值较小，则使用适当的阈值来过滤掉文本字符，并检测其中封围有文本的几何形状和非几何形状的集合。例如，可以通过使用按降序排列的经检测轮廓的周长的50％来过滤文本字符的轮廓，留下轮廓的集合，这些轮廓是流程图图像300中的主要特征，并且可能表示其中封围有文本的几何形状和非几何形状的集合。可以使用来自框520的流程图图像300的分割图像部分执行第二轮轮廓检测，以验证其中封围有文本的几何形状和非几何形状的集合，并在流程图图像300上近似其位置。

框520和框530中的方法步骤是并行执行的补充步骤，用于检测几何形状和非几何形状，从而使图像处理的非预期影响最小化。然而，在一些实施例中，可以只使用方法步骤中的一者，即，框520或框530。即使在表示形状轮廓的前景像素中的一些前景像素丢失(或未连接)，使得框520中的相连组件的方法无法准确地检测它们时，框530中使用的轮廓检测方法也可以捕获几何形状或非几何形状。同时，如果几何形状或非几何形状被该形状附近的文本字符混淆，则在框530中使用的轮廓检测方法可能无法捕获该几何形状或非几何形状，在这种情况下，通过框520中的相连组件的方法捕获形状。通过使用流程图图像300的不同处理变体，可以进一步降低图像处理的非预期影响。对流程图图像300的不同处理变体使用互补方法得到的几何形状和非几何形状的近似结果可以被组合，以生成具有更高置信度的几何形状和非几何形状的集合，并定义几何形状和非几何形状中封围的文本的边界。

在框540中，从其中封围有文本的几何形状和非几何形状的集合中过滤掉与封闭形状的数据节点不对应的几何形状和非几何形状的轮廓。在一些实施例中，与形态特性相关的统计滤波器可用于确定形状本质上是几何的还是非几何的。作为非限制性示例，轮廓大小的统计分布可用于过滤与封闭形状的数据节点不对应的几何形状和非几何形状。附加地或替代地，字符识别算法(诸如但不限于OCR和/或ICR)可用于确认滤得的几何形状和非几何形状中是否存在文本字符，并确定包括文本的几何形状和非几何形状的集合。过滤掉与封闭形状的数据节点不对应的几何形状和非几何形状的过程显著减少了进一步处理的负担，因为流程图图像300可以具有数千个对应于字母数字字符、几何形状和非几何形状的轮廓。

在框550中，使用曲线拟合算法、特征提取算法和特征描述符检测几何形状的轮廓，以近似包括文本的几何形状。使用以下各项中的一项或多项来过滤几何形状的候选轮廓：(i)曲线拟合算法(诸如但不限于道格拉斯-普克算法)，从而将表示形状的轮廓抽取为具有定义原始轮廓的点的子集的类似曲线，其中，道格拉斯-普克算法使用伊普西龙(epsilon)(ε，用户定义的阈值距离维度)值，该伊普西龙值因变于具有或不具有任何定义的上限和下限的轮廓面积来计算，(ii)特征提取算法(诸如但不限于通用霍夫变换)，其中随机选择的长度、宽度、顶点的值可用于首先生成几何形状模板的集合，这些模板随后与候选轮廓匹配，以识别那些与几何形状相对应的模板，以及(iii)特征描述符(诸如但不限于定向梯度直方图和尺度不变特征变换)，以检测并匹配候选轮廓中的局部特征。因此，在框550的末尾，获得其中封围有文本的几何形状的集合。

在框560中，使用形状模板和形状匹配算法验证在框550中获得的包括文本的几何形状。使用字符识别算法(诸如但不限于OCR和/或ICR)测试包括文本的几何形状，以查看它们是否封围字母数字字符。提取被封围在几何形状中的文本字符，然后将包含至少预定数量N个字母数字字符或字母数字字符与所有字符的预定比率R的那些几何形状验证为包括文本的几何形状。“N”和“R”值可以是任意分配的或自适应计算的截止值。接下来，使用形状模板和形状匹配算法(诸如但不限于胡氏不变矩)来确定包括文本的集合形状的确切性质和定向。还确定包括文本的几何形状的近似结果，即原始流程图图像300的坐标空间中的位置向量。因此，在过滤掉非几何形状并确定经验证的包括文本的几何形状的近似结果之后，将多个封闭形状的数据节点减少为包括文本的几何形状的集合。

返回参考图4，在框420中，对被封围在多个封闭形状的数据节点内的文本进行定位。如本文所使用的，在图像中“经定位”或“定位”的文本意味着找到文本并定义其在图像中的边界。图6描绘了在框420处对被封围在多个封闭形状的数据节点内的文本进行定位的示例方法600的框图。

在框610中，来自流程图图像300的不同预处理变体和通过相连组件方法和轮廓检测方法中的一者或两者检测的包括文本的几何形状的多个近似结果被组合，以形成包括文本的几何形状的集合，其现在具有更高的置信度。这些多个近似结果作为输入用于框620中的进一步处理。

在框620中，使用存储在数据节点逻辑244a中的非最大压缩算法来对包括文本的几何形状的近似结果进行压缩，以定义文本和形状边界。其中包括文本的几何形状的多个近似结果用于分别估计每个包括文本的几何形状的周长和其中包含文本的区域的周长的近似结果。

非最大压缩算法识别较大边界框和明显较小边界框的最佳匹配，该较大边界框捕获与包括文本的几何形状匹配的最小区域，该明显较小的边界框捕获与其中包含文本的区域匹配的最小区域。首先，基于多个近似结果的面积的统计分布以及与相同的包括文本的几何形状的其他近似结果的重叠程度，使用来自每个包括文本的几何形状的多个近似结果的位置向量来识别并抑制表示包括文本的几何形状的一小部分或部分的包括文本的几何形状的低评分近似结果。接下来，通过从每个包括文本的几何形状和其中的文本的四个边界坐标中的每一者的多个近似结果的位置向量中选择二维假设搜索空间中的坐标(x，y)值的第N百分位数来确定边界框。本文以此种方式使用第N百分位数，为N选择一组值表示包括文本的几何形状的整体的边界框(或单个最佳近似结果)，该组值使来自近似结果的面积(或单个最佳近似结果)最小化，以生成最佳拟合。类似地，为N选择另一组值表示边界框，该边界框具有将文本封围在相同几何形状内的最小面积。

因此，具有最小面积的近似结果可以匹配其中包含文本的区域，并且具有最大面积的近似结果可以匹配几何形状的边界。然后，使用包括文本的几何形状的近似结果为被封围在包括文本的几何形状中的文本生成图像掩模的集合。本文所使用的“图像掩模”广泛定义为包括对图像进行的通过将(多个)区域中的像素强度设置为零或设置为与图像背景的像素强度匹配的值来隐藏或标记图像中的一个或多个区域的任何操作。存储在掩模逻辑244d中的掩模算法可用于此目的。

在框630中，将包括文本的几何形状中的文本与包括文本的几何形状中的每一者分离，以确定多个封闭形状的数据节点。这是使用图像掩模的集合来执行的，这使得能够在包括文本的几何形状中隔离文本。因此，被封围在多个封闭形状的数据节点内的文本被定位。

返回参考图4，在框425中，对多个封闭形状的数据节点内的经定位文本施加掩模，以生成带注释的图像。这是使用在框620中生成的图像掩模的集合来执行的。在一些实施例中，带注释的图像包含多个封闭形状的数据节点，而没有被封围在每个封闭形状的数据节点内的任何文本，并且可以存储在经处理和注释的图像238b中。带注释的图像作为输入用于框435。

在框430中，生成自由文本中字符尺寸的统计大小分布，以识别连接线。为此，使用例如存储在统计大小分布逻辑244e中的统计大小分布算法来确定与连接线相邻的自由文本中的字符的形态特性(面积、周长、长度、宽度等)。使用轮廓检测步骤检测其中包含自由文本的区域的轮廓。同时，通过字符识别算法(诸如但不限于OCR和/或ICR)检测自由文本的个体字母数字字符的轮廓。包围个体字母数字字符的最小区域的矩形(或圆)用于计算每个个体字母数字字符的高度和宽度(或在圆的情况下为直径)。对与连接线相邻的自由文本中的所有字母数字文本字符重复此过程，以生成统计大小分布。然后，使用统计大小分布来定义检测每个流程图图像300中的连接线所需的参数的值。因此，通过排除与每个流程图图像300的自由文本的字母数字文本字符相对应的边缘和结构来自适应地学习连接线的线检测所需的参数的值。这是有利的，因为不同流程图图像300中的文本字符的字体不同，并且因此，不需要为线检测应用参数的全局值，该参数的全局值可为不同的流程图图像产生不一致的结果。随后，可使用通过前景对象的一轮或多轮扩张和/或侵蚀的形态变换来提高字母数字文本字符的字体高度和宽度近似结果的准确性，并防止在水平和垂直方向上合并多个字母数字文本字符。

在框435中，检测带注释的图像中的线，以将这些线重建为封闭形状的数据节点和连接线。图7描绘了在框435处用于检测带注释的图像中的线以将这些线重建为封闭形状的数据节点和连接线的示例方法700的框图。虽然在本文描述的实施例中，带注释的图像包含多个封闭形状的数据节点，而没有被封围在每个封闭形状的数据节点内的任何文本以及连接线，但在其他实施例中，带注释的图像可以仅包含连接线，并且相应地调整方法700。

在框710中，识别在水平和垂直方向上的带注释图像上的对象的图像梯度。在该情况下，图像梯度具有角度定向，可以将该角度定向解析并近似为水平和垂直分量。可以通过在水平和垂直方向上应用图像梯度滤波器(诸如但不限于索贝尔算子、沙尔算子、拉普拉斯算子等)来近似图像梯度。

在框720中，使用边缘检测算法和形状检测算法，基于所识别的图像梯度，作为在水平和垂直方向上近似的线的代理来检测带注释的图像上的线。在框710中识别的图像梯度的强度用于使用边缘检测算法(诸如但不限于坎尼边缘检测算法)检测在水平和垂直方向上对齐的线的边缘。同时，在框710中识别的图像梯度用于使用形状检测算法(诸如但不限于概率霍夫(Hough)变换)来对线进行近似。

在框730中，使用定制为从带注释的图像中移除非几何对象和文本字符的启发式确定的核，作为在水平和垂直方向上近似的形态梯度来检测带注释的图像上的线。这是通过应用形态学变换，从二值化流程图图像中选择性地移除对应于非几何对象和字母数字字符的像素来实现的。核形状和/或大小的启发式值可以从框430自适应地选择，以便从带注释的图像中移除非几何对象和文本字符。在一些非限制性示例中，应用的形态变换包括一轮或多轮侵蚀，然后使用大小为(x，y)的矩形核在水平方向上进行一轮或多轮扩张，其中x和y值分别基于每个个体字母数字字符的最大宽度和最小高度来分配。因此，获得仅具有水平线的二值化图像。使用大小为(x，y)的矩形核在垂直方向上应用类似的形态变换，其中x和y值分别基于每个个体字母数字字符的最小宽度和最大高度来分配。因此，获得仅具有垂直线的二值化图像。因此，基于核的线的近似作为水平和垂直方向上的形态梯度被检测。

在框740中，基于所识别的图像梯度检测到的线(来自框720)和作为形态梯度检测到的线(来自框730)被组合，以形成现在具有更高的检测置信度的流程图图像300的一组水平线和垂直线。

在框750中，该组水平线和垂直线被重建为封闭形状的数据节点和连接线，它们形成流程图图像300的树框架的不同部件。重建过程确定水平线和垂直线的对齐，以对部件进行分类。例如，当两条水平线和两条垂直线对齐以形成几何形状(诸如矩形或正方形)时，它们将被推断为形成封闭形状的数据节点。然后对封闭形状的数据节点与在框560中获得的包括文本的几何形状进行比较和合并，以确保检测到所有封闭形状的数据节点。否则，当水平线和垂直线没有对齐以形成几何形状，而是连接其他几何形状时，它们被推断为连接线。因此，检测到形成树框架的多个封闭形状的数据节点和连接线。

返回参考图4，在框440中，提取具有多个封闭形状的数据节点和检测到的连接线集的树框架。图8描绘了在框440处提取具有多个封闭形状的数据节点和检测到的连接线集的树框架的示例方法800的框图。检测树框架对于确定流程图图像300中的层次结构和信息流可能很重要。在框810中，确定检测到的连接线中的每一者是连接符还是带有箭头的流线。比较连接线的两个或更多个端点处的前景像素密度，以确定是否存在箭头。可以定义椭圆结构元素(或核)来计算和比较像素密度。高像素密度指示存在箭头，将连接线分类为流线。另一方面，低像素密度指示不存在箭头，这将连接线分类为连接两个或更多个封闭形状的数据节点的连接符。

在框820中，连接线是基于连接线端点之间的接近度、二维空间中任意两条连接线之间的重叠、以及连接线的几何斜率来组装的。图9A-9C描绘了连接线的此类组装的说明性示例。如图9A中所示，隔离连接线“a”，并在其周围的假设搜索空间中搜索其他连接线的端点。如果在连接线“a”附近没有找到其他连接线，则比较连接线“a”两端的前景像素密度，以确定它是连接符还是带有箭头的流线(如由高像素密度所指示的)。

另一方面，如果在连接线“a”附近发现另一条连接线“b”，则确定两条连接线“a”和“b”之间的假设二维搜索空间中的坐标重叠以及连接线“a”和“b”中的每一者的斜率。如果连接线“a”和“b”之间有充分的坐标重叠，则拒绝将其作为肘形连接符/流线的候选；否则反之。接着，如果连接线“a”和“b”中的每一者的几何斜率对齐，则也拒绝将其作为肘形连接符/流线的候选。因此，只有当连接线“a”和“b”在假设搜索空间中具有最小的或没有坐标重叠，并且它们的几何斜率具有不同的定向时，连接线“a”和“b”才成为肘形连接符/流线的候选。然后比较连接线“a”和“b”的四个端点的前景像素密度，以确定由高像素密度指示的箭头的存在。如果由连接线“a”和“b”形成的候选肘形连接符/流线的两个近端中的任一端与远端相比具有高像素密度，则拒绝它们作为候选肘形连接符/流线。如果候选肘形连接符/流线的两个远端中的任一端具有高像素密度，则它们确实形成肘形流线。如果候选肘形连接符/流线的两个远端都没有高像素密度，则它们形成肘形连接符，在这种情况下，远端(也称为“肘形连接符的前端”)进一步经受如上所述的相同测试，以确定是否存在其他连接线，直到在此类其他连接线的远端检测到箭头为止。

在图9B所示的说明性示例中，连接线“a”和“b”在假设搜索空间中没有坐标重叠，并且它们的几何斜率具有不同的定向。此外，连接线“a”的两端都具有低像素密度的事实指示其是连接符。另一方面，靠近连接线“a”的连接线“b”的近端具有低像素密度，而远离连接线“a”的连接线“b”的远端具有指示箭头存在的高像素密度。这指示连接线“b”的远端形成了由连接线“a”和“b”形成的肘形流线的箭头。

在图9C中所示的说明性示例中，连接线“a”、“b”、“c”、“d”基于接近度形成集群。然而，连接线“a”和“c”具有相同的几何斜率，并且连接线“b”和“d”具有相同的几何斜率。因此，肘形连接符/流线的候选是由连接线“a”和“b”形成的、由连接线“a”和“d”形成的、由连接线“c”和“b”形成的以及由连接线“c”和“d”形成的那些连接符/流线。此外，连接线“a”和“c”的两端都具有低像素密度的事实指示它们都是连接符。另一方面，连接线“b”和“d”的远端具有指示箭头的存在的高像素密度。由于确定连接线“b”比连接线“c”更靠近连接线“a”，因此可以推断出由连接线“a”和“b”形成的肘形流线。类似地，由于确定连接线“d”比连接线“b”更靠近连接线“c”，因此可以推断出由连接线“c”和“d”形成的肘形流线。

使用上述方法，提取具有多个封闭形状的数据节点和连接线的树框架。由于树框架不包括其他部件(诸如文本字符、词或其他不相关的形状)，因此可以通过应用机器学习和/或深度学习算法来使用第二轮形状检测，该机器学习和/或深度学习算法是通过使用高度、宽度、旋转、直径等的任意值生成的一组几何形状训练的。这使得能够验证所检测到的多个封闭形状的数据节点的近似结果，以及识别在框415期间未检测到的任何几何形状。机器学习算法可以存储在训练数据238g中，并由机器学习逻辑244h使用。

返回参考图4，在框445中，与连接线相邻的自由文本被定位。图10描绘了在框445处用于对与连接线相邻的自由文本进行定位的示例方法1000的框图。与连接线相邻的自由文本表示支持流程图图像300中的信息流中的连接和/或决策的证据。生成具有掩模的带注释的图像，该掩模应用于在框415/560中检测到的多个封闭形状的数据节点和在框440/820中检测到的树框架。该带注释的图像用作框1010的输入。

在框1010中，通过执行一个或多个形态变换，将自由文本的字符合并为自由文本斑点(blob)。如本文中所使用的，“斑点”一词是指彼此相邻地定位但不一定分配给词或短语的字符(例如字母数字字符)的集合。在来自框1010的带注释图像上应用的形态变换包括一轮或多轮扩张，以扩展前景特征，从而将个体字母数字字符合并为自由文本斑点，这些自由文本斑点代表表示敏感信息的单行或多行文本字符串。

在框1020中，通过确定沿着自由文本斑点的边缘的连续点是否具有相同的像素密度和颜色来检测自由文本斑点的轮廓。然后，使用自由文本斑点的轮廓将经过形态变换的带注释图像分割为各个对象特定片段，这些片段用作框1030中的下一步的输入。

在框1030中，基于具有大多数字母数字字符，使用字符识别算法来过滤自由文本斑点的轮廓。在一些实施例中，可以使用字符识别算法，诸如但不限于OCR和/或ICR。在其他实施例中，可以使用这些字符识别算法中的不止一者。在框1020中获得的图像的各个对象特定片段用于该过程。保留具有与字母数字字符匹配的大多数个体元素的图像片段，并将其他元素作为数据节点或树框架的残余过滤掉。

在框1040中，识别近侧定向和定位在一起的自由文本的分块。如本文所使用的，“分块”一词是指组合在一起的斑点的集合，它们有可能为自由文本提供逻辑意义。作为非限制性示例，为此目的实现“邻域测试”。来自框1030的具有大多数字母数字字符的图像片段用于确定与流程图图像300中的连接线相邻的自由文本分块的近似结果。图像片段包括许多候选自由文本分块。通过重复测试来自具有大多数字母数字字符的图像片段的任意两个候选自由文本分块之间的接近度来识别近侧定向和定位在一起的自由文本分块。任意两个自由文本分块之间的接近度是根据文本分块的参考位置向量的接近度来确定的，该参考位置向量被定义为表示个体文本分块的最左上的位置向量。如果自由文本分块的参考位置向量落入查询文本分块周围的预定义的二维假设搜索空间内，则将该自由文本分块视为接近查询文本分块。查询文本分块周围的预定义的二维假设搜索空间在水平和垂直方向两者上扩展，并且可以定义为查询文本分块的长度和/或宽度的函数。

返回参考图4，在框450中，然后使用基于定向的二维聚类将近侧定向和定位在一起的自由文本分块组装成文本块。换句话说，通过基于定向的二维聚类过程，对满足框1040中实现的“邻域测试”的自由文本分块进行“成员资格测试”。

图11描绘了使用基于定向的二维聚类将近侧定向和定位在一起的自由文本组合成文本块组件的说明性示例。如本文中所使用的，“组件”一词是指一组相邻的文本块，这些文本块满足“成员资格测试”，并表示自由文本的单个集群。从自由文本的第一分块作为组件的第一成员开始，使用“成员资格测试”来测试自由文本的第一分块周围的假设搜索空间中的任何相邻自由文本分块，以确定组件中的成员资格。在一些实施例中，“成员资格测试”可包括用于测试在组件的成员和相邻自由文本分块之间的假设搜索空间中的近似测试距离的阈值，以使得如果测试距离小于阈值，则相邻自由文本分块被视为组件成员。

在一些实施例中，“成员资格测试”的测试距离可以计算为组件成员的最近边缘和相邻自由文本分块之间的欧几里德距离。边缘的选择可取决于相邻自由文本分块相对于假设搜索空间中的组件成员的定向。如图11的非限制性示例中所示，如果自由文本分块D是组件成员，并且自由文本分块E是相邻自由文本分块，则测试距离可以是由位置向量<(x

在一些实施例中，给定自由文本分块的可变大小和数量，可以因变于相邻自由文本分块和/或组件成员的高度或宽度来计算阈值，其中，选择作为测试阈值的高度或宽度取决于相邻自由文本分块相对于假设搜索空间中的组件成员的定向。在非限制性示例中，在自由文本分块表示词的情况下，最接近的水平对齐的相邻自由文本分块和组件成员之间的预期距离可以是相邻自由文本分块和组件成员的最小宽度。在另一非限制性示例中，在自由文本分块表示词的情况下，最接近的垂直对齐的相邻自由文本分块和组件成员之间的预期距离可以是相邻自由文本分块和组件成员的最小高度。在又另一非限制性示例中，在自由文本分块表示文本字符的情况下，最接近的水平对齐的相邻自由文本分块和组件成员(其可以是文本字符或词)之间的预期距离可以定义为相邻自由文本分块和组件成员的宽度乘以常数ρ中的较小者，其中ρ是正实数。由于ρ用作距离乘数，其值可以在1到2之间选择。

假设搜索空间中相邻自由文本分块相对于组件成员的定向是从连接其质心的直线的几何斜率推断的。如果几何斜率接近于零(例如，图11中的分块D和E)，则假定相邻自由文本分块与组件成员水平对齐，并定位在组件成员的一侧。如果几何斜率未定义(例如，图11中的分块D和A)，则假定相邻自由文本分块与组件成员垂直对齐，并定位在组件成员的上方或下方。如果连接其质心的直线的几何斜率具有大于零的有限值(例如，图11中的分块D和G)，则根据几何斜率或通过将连接它们质心的直线(图11中的“dg”)视为具有直角边(图11中的“b”和“h”)的假想直角三角形的斜边而计算出的它们之间在水平方向和垂直方向上的距离来决定它们的对齐。可以通过从两个质心延伸直线并找到这些直线彼此相交的顶点来推断直角边。在一些实施例中，两条直角边中的较长者可用于确定假设搜索空间中相邻自由文本分块相对于组件成员的定向。在图11的说明性示例中，直角边“b”比直角边“h”长，因此相邻自由文本分块G虽然与组件成员D对角地定向，但可以被视为与组件成员D水平对齐。因此，“成员资格测试”的阈值可以因变于相邻自由文本分块G和组件成员D的最小宽度，并且测试距离可以是由位置向量<(x

使用上述方法相对于组件成员对相邻自由文本分块进行测试，并将通过“成员资格测试”的那些相邻自由文本分块作为新成员添加到组件中。然后启动“成员资格测试”的新迭代，其中对组件的新添加的成员的相邻自由文本分块进行测试，以确定组件中的成员资格。重复此过程，直到无法将新成员添加到组件中。将添加到特定组件的自由文本分块与未分配的自由文本分块分开。然后随机或基于其位置选择未分配的自由文本分块中的一者，以开始通过自由文本的“邻域测试”查找其相邻分块的过程，并确定具有未分配的自由文本分块的组件中的成员身份。

在框450的末尾处提取所有信息后，使用字符识别算法(诸如但不限于OCR和/或ICR)识别经定位文本和文本块中的字符。在一些实施例中，可以使用这些字符识别算法中的不止一者。因此，依次提取流程图图像300的三种类型的部件——被封围在多个封闭形状的数据节点内的经定位文本、包括多个封闭形状的数据节点和连接多个封闭形状的数据节点中的一者或多者的连接线的树框架、以及与连接线相邻的自由文本。然后将这三种类型的部件编译成流程图文件。流程图文件具有可搜索和交互式/或电子文件格式，诸如但不限于JSON、DOT、GraphSON。电子文件格式使流程图文件具有比流程图的原始电子图像文件减小的大小。原始电子图像文件的大小压缩允许以较少的存储空间存储流程图文件，并缩短传输时间。

JSON是开放标准的文件格式，使流程图文件能够作为经提取部件的通用目录呈现，以供后续搜索和交互。DOT是图形描述语言格式，使流程图文件能够以普遍接受的图形形式呈现。GraphSON是基于JSON的图形格式，使得能够将流程图文件直接集成到众所周知的图形工具、编程库和知识库中。可以使用各种其他可搜索和交互式电子文件格式代替JSON、DOT和GraphSON，这些格式用作非限制性示例。在一些实施例中，流程图文件可以在这些可搜索和交互式电子文件格式之间相互转换。

流程图图像包含具有不同的形状、大小、流程类型、格式、颜色、内容密度、质量、字体、图像分辨率等的静态信息和复杂结构。因此，在提取后轻松传输经存储的信息并与所得的流程图文件交互的能力与从流程图图像中完整并准确地提取信息以供后续有益使用的能力一样重要。本文所示出和描述的系统、方法和计算机程序产品解决了这两个技术问题。如上具体所述，通过大小压缩、易于传输和所得的流程图文件的交互性质，改进了经提取的信息基于计算机的实现。此外，与传统计算机系统相比，基于计算机的系统、方法和计算机程序产品的特定配置使得能够以更高效和准确的方式从流程图图像中提取信息，同时保持流程图的原始结构。

因此，使用本文所述的计算机视觉技术从流程图图像中自动提取信息的系统、方法和计算机程序产品可以将流程图图像转换为机器和人类都可以轻松学习的可搜索和交互式资产。从流程图图像检索到的信息也可以作为算法轻松存储在知识库中。因此，本文描述的系统、方法和计算机程序产品可以有利地应用于各种领域中的高级计算机辅助决策并自动生成问题/回答以教育这些领域的人员。由于压缩的大小和易于访问的格式，检索到的信息可以方便地用于发布(例如，将图像重新渲染到所需的大小和/或分辨率)、快速在线传输、经由自然语言处理处理文本和/或用于数据科学应用。

本文使用的术语仅为了描述特定方面，而非旨在构成限定。如本文所使用的，单数形式“一(a)”、“一(an)”和“该(the)”也旨在包括复数形式，包括“至少一个”，除非上下文另有明确指示。“或”表示“和/或”。如本文所使用的，术语“和/或”包括相关联的列出项目中的一者或多者的任何和所有组合。将进一步理解的，当在本说明书中使用时，术语“包括”和/或“包括有”、或“包含”和/或“包含有”指明所陈述的特征、区域、整数、步骤、操作、要素和/或部件的存在，但并不排除一个或多个其他特征、区域、整数、步骤、操作、要素、部件和/或其群组的存在或添加。术语“或其组合”是指包括前述要素中的至少一者的组合。

应当注意，本文可以利用术语“基本上”和“约”来表示可归因于任何定量比较、数值、度量，或其他表示的固有不确定度。还在本文利用这些术语来表明数量表示可以与所陈述的引用不同而不会导致所讨论的主题的基本功能的改变的程度。

尽管本文示出和描述了特定实施例，但应理解可作出各种其他变更和修改而不偏离所要求保护的主题的精神和范围。此外，虽然本文中已经描述了所要求保护的主题的各个方面，但不需要以组合的方式来利用这些方面。因此，所附权利要求旨在涵盖所要求保护的主题的范围内的所有此类变更和修改。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 图像信息评估方法、用于图像信息评估的计算机程序产品、图像信息评估系统和特别是在轨道和道路交通中的车辆 [P] . 中国专利： CN112218790A . 2021-01-12
2. 用于确定关于具有嵌入在道路基础设施中的初级线圈的感应充电系统的效率的信息的方法、设备、系统、计算机程序和计算机程序产品 [P] . 中国专利： CN104039585A . 2014-09-10
3. Systems, methods and computer program products for automatically extracting information from a flowchart image [P] . 美国专利： US11151372B2 . 2021-10-19

机译：用于自动从流程图图像中提取信息的系统，方法和计算机程序产品
4. SYSTEMS METHODS AND COMPUTER PROGRAM PRODUCTS FOR AUTOMATICALLY EXTRACTING INFORMATION FROM A FLOWCHART IMAGE [P] . 美国专利： US2021110150A1 . 2021-04-15

机译：系统方法和计算机程序产品用于自动从流程图图像中提取信息
5. SYSTEMS, METHODS AND COMPUTER PROGRAM PRODUCTS FOR AUTOMATICALLY EXTRACTING INFORMATION FROM A FLOWCHART IMAGE [P] . WO2021068987A1 . 2021-04-15

机译：用于自动从流程图图像中提取信息的系统，方法和计算机程序产品