首页> 中国专利> 基于多文种文档图像识别的跨文种理解方法

基于多文种文档图像识别的跨文种理解方法

摘要

本发明公开了一种基于多文种文档图像识别的跨文种理解方法,包括以下步骤:获取源文种的文档扫描图像,通过多文种文档图像识别途径对所述文档扫描图像进行处理,以得到源文种识别文本;对所述源文种识别文本进行分句处理;利用基于词的或基于句子的文本翻译理解模块对分句处理后的源文种识别文本进行转换,获得目标文种文本;对所述文档扫描图像、源文种识别文本和目标文种文本进行显示输出。本发明能够实现对多文种的文档扫描图像进行识别、分句、跨文种理解以及双语对照图文显示,为用户提供了各文种、各民族文字信息的获取、保存、交流与转换功能,便于用户实现跨文种的文档理解。

著录项

  • 公开/公告号CN102609408A

    专利类型发明专利

  • 公开/公告日2012-07-25

    原文格式PDF

  • 申请/专利权人 清华大学;

    申请/专利号CN201210007729.2

  • 申请日2012-01-11

  • 分类号G06F17/28;G06F17/27;G06K9/20;

  • 代理机构北京路浩知识产权代理有限公司;

  • 代理人韩国胜

  • 地址 100084 北京市海淀区清华园100084-82信箱

  • 入库时间 2023-12-18 06:17:12

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-11-26

    授权

    授权

  • 2012-09-26

    实质审查的生效 IPC(主分类):G06F17/28 申请日:20120111

    实质审查的生效

  • 2012-07-25

    公开

    公开

说明书

技术领域

本发明涉及文本图像识别与分析领域,特别是涉及一种基于多文 种文档图像识别的跨文种理解方法。

背景技术

我国作为一个具有悠久历史的多民族大国,55个少数民族约占 全国人口总数的8%,分布在占全国总面积50%-60%的土地上。少数 民族语言分属汉藏、阿尔泰、南亚、南岛和印欧等几大语系,使用人 数较多且影响较广的少数民族文字以蒙古文、藏文、维吾尔文为代表。 蒙古文、藏文、维吾尔文是非拉丁字母、非汉字体系的文字,民族文 字识别与翻译理解技术是构建各民族文化信息化交流渠道的重要基 础。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是提供一种多文种文档识别与翻译理 解的跨文种一体化技术,实现各民族文字信息的获取、保存、交流与 转换。

(二)技术方案

为了解决上述技术问题,本发明提供一种基于多文种文档图像识 别的跨文种理解方法,其包括以下步骤:

获取源文种的文档扫描图像,通过多文种文档图像识别途径对所 述文档扫描图像进行处理,以得到源文种识别文本;

对所述源文种识别文本进行分句处理;

利用基于词的或基于句子的文本翻译理解模块对分句处理后的 源文种识别文本进行转换,获得目标文种文本;

对所述文档扫描图像、源文种识别文本和目标文种文本进行显示 输出。

其中,所述多文种文档图像识别途径具体包括:将获取的所述文 档扫描图像输入多文种文档图像识别模块中,对所述文档扫描图像依 次进行版面分析、文本行切分、字符切分和识别,得到所述文档扫描 图像的文本代码。

其中,所述分句处理具体包括:对所述源文种识别文本进行断句 和整理,使得原版式上换行断开的句子合并,重新从标点符号处断开 文本。

其中,基于词的源文种识别文本转换具体包括:记源文种为A, 目标文种为B,根据B的检索词或指定检索词组,从所述文本翻译理 解模块的文种A-B双语对照词典知识库中查找对应A的词条或词条 组,在所述源文种识别文本中匹配查询,并记录匹配结果。

其中,所述显示输出具体包括:将所述匹配结果在所述源文种识 别文本中高亮显示,同时将A和B双语对照的词条内容列表显示出 来;或者,将所述匹配结果在所述文档扫描图像上标记显示,同时将 A和B双语对照的词条内容列表显示出来。

其中,基于句子的源文种识别文本转换具体包括:采用基于句子 的翻译模块,实现句子的翻译转换。

其中,所述显示输出具体包括:将翻译转换后的目标文种文本与 源文种识别文本按句交替显示。

其中,所述显示输出具体还包括:目标文种文本与源文种识别文 本按句交替显示时,在目标文种文本中选中某句时,将该句在所述文 档扫描图像上标记显示。

(三)有益效果

上述技术方案所提供的基于多文种文档图像识别的跨文种理解 方法,能够实现对多文种的文档扫描图像进行识别、分句、跨文种理 解以及双语对照图文显示,为用户提供了跨文种的文档翻译理解功 能,实现各文种、各民族文字信息的获取、保存、交流与转换功能, 便于用户实现跨文种的文档理解。

附图说明

图1是本发明实施例的基于多文种文档图像识别的跨文种理解方 法的流程图。

具体实施方式

下面结合附图和实施例,对本发明的具体实施方式作进一步详细 描述。以下实施例用于说明本发明,但不用来限制本发明的范围。

图1示出了本实施例的基于多文种文档图像识别的跨文种理解 方法的流程图,参照图示,该方法包括如下步骤:

第一步:获取源文种的文档扫描图像,通过多文种文档图像识别 途径对所述文档扫描图像进行处理,以得到源文种识别文本;

第二步:对所述源文种识别文本进行分句处理;

第三步:利用基于词的或基于句子的文本翻译理解模块对分句处 理后的源文种识别文本进行转换,获得目标文种文本;

第四步:对所述文档扫描图像、源文种识别文本和目标文种文本 进行显示输出。

在第一步中,采用多文种文档图像识别(又称文字识别或光学字 符识别,Optical Character Recognition,OCR)技术,对扫描得到的 报纸、书籍等文档扫描图像进行识别,具体过程包括:将获取的所述 文档扫描图像输入多文种文档图像识别模块中,进一步对其依次进行 版面分析、文本行切分、文字切分和识别,得到文档扫描图像文本代 码,将结果保存在文本文件中,同时记录文字在原始图像上的对应位 置信息,如字符图像外接矩形框的顶点坐标。本实施例中的识别支持 的文种如汉、英、蒙古、藏、维吾尔、哈萨克、柯尔克孜、阿拉伯、 朝鲜文等。

其中,版面分析通过连通域分析、投影分析或纹理分析等方法, 将文档扫描图像分割成同质的区域,包括文本、表格、图片等区域, 文本区域包括横排文本和竖排文本。

文本行切分通过连通域分析、投影分析等方法将文本区域分割为 单个文本行。

在单个文本行的文字识别过程中,通过连通域分析、轮廓分析等 方法分离出文字识别的基本单元,对其进行识别。根据识别方法的不 同,文字识别的基本单元可以是字符、字符部件或单词等。

识别结果为字符代码,存入文本文件,形成源文种识别文本,其 他信息也存入文件进行保存,包括文字在原始图像上的对应位置信 息,如字符图像外接矩形框的顶点坐标。

在第二步中,进行分句处理对源文种识别文本进行断句。由于源 文种识别文本每行对应原始文档扫描图像中的一行,每一行的长短不 一,很多句子在行间断开,一行中也可能包含多个句子,需要对识别 出的源文种识别文本进行断句和整理,使得原版式上换行断开的句子 合并,重新从标点符号处断开文本。

分句具体过程包括,循环读入源文种识别文本中每一行,在每一 行读入的字符串中从前向后依次搜索句末标点,找到句末标点,则在 输出文件中输出前面的字符串,换行并在原字符串中删除句末标点之 前的字符串,然后继续搜索,直到读入的这一行字符串的结尾;如果 处理到该行结束时没有遇到句末标点,则将剩余字符串内容直接输出 到输出文件,但不换行;对每一行都做这样的处理,直到文本文件处 理结束。断句后的文本另存入一个文件。

句子分离的标志是标点,本系统中认为是标志句子分段结束的句 末标点包括:逗号、句号、冒号、分号、问号、感叹号、双引号和括 号的右半边等。有些句子结束之后会跟后一个句子开头的标点相连, 比如双引号或括号左半边,因此这些标点符号不能作为句末标点。为 对各文种中的特定标点具有较好的扩展性,可在处理过程中自定义添 加标点符号。

有些句子可能出现多个句末有多个标点的情况,比如表示惊叹时 将感叹号和问号连用,句号后边接着双引号的后半边,或者识别时将 句末标点前面一个字符误识为标点符号。因此系统在搜索找到第一个 句末标点时不立即停止搜索,而是继续往后搜索,直到不是句末标点 为止。

在第三步中,对分句处理后的源文种识别文本进行转换有两种途 径:

途径一:记源文种为A,目标文种为B,根据B的检索词或指定 检索词组,从所述文本翻译理解模块的文种A-B双语对照词典知识 库中查找对应A的词条或词条组,在所述源文种识别文本中匹配查 询,并将匹配结果记录下来,其中词典可以为通用词典或自定义词典。

以藏汉跨文种理解为例,对输入的汉语检索词,在词典数据库每 个藏文词条的各汉语解释中逐项查找,如果某个汉语解释中包含要查 找的检索词,认为找到了一个对应的藏文词条,直到词典中所有藏文 词条查询完毕。系统对每一个找到的藏文词条建立一个藏汉信息节 点,节点成员包括:关键词编号、对应藏文单词、对应藏文单词长度、 相应汉语翻译、汉语翻译长度、单词分类和单词分类长度。本系统还 设计了专门的查询结果节点结构来保存相应的查询结果,节点成员包 括:关键词的编号、关键词在文本中行数、关键词在文本中的列数、 关键词在全文中的位置、关键词的长度。

对于找到的每一个藏文词条,在藏文文本中进行查找,该词条每 出现一次则新建一个查询结果节点,直到所有的词条查找完毕。返回 所有与中文检索词对应的藏文词条在文档中出现的次数和所有查询 结果节点。

本系统使用的藏汉词典格式包括藏文单词,词性,一个或多个汉 语翻译。目前由于藏汉词典大多是解释描述性的,缺乏一一对应的准 确汉语词语翻译,这给直接从藏汉词典词义中完全匹配检索词造成很 大的困难。本系统中,词典作为数据库,系统通过ODBC接口与词 典数据库相连,使用结构化查询语言(SQL)进行模糊查询。在解释 性藏汉词典中进行初步模糊查询的策略是只要一个藏文词条的任何 一条解释性的语言中出现了要查询的词,就认为该藏文词条包含要查 询的汉语检索词。

此外,用户可以建立自定义词典文件,格式为:″藏文词条″,″汉 语意思1″,″汉语意思2″,...可以给每个藏文词条添加多个汉语意思, 只需要用英文双引号括起来,每个汉语意思之间用英文逗号隔开。当 用户指定用自定义词典进行理解查询时,则对词表中每一个藏文词条 建立一个藏汉信息节点,随后在藏文文本中一次检索所有的藏文词 条。

途径二:采用基于句子的翻译模块,对分句处理后的源文种文本 按句实现翻译转换,本实施例可采用常规统计机器翻译模块进行翻译 转换。

在第四步中,支持双语文本或图文对照显示方法,包括两种显示 模式,一种为文本显示模式,若采用上述途径一,则将匹配的结果词 条在源文种识别文本中高亮显示,同时将A和B双语对照的词条内容 列表显示出来;若采用途径二,则将翻译转换后的目标文种文本与源 文种识别文本按句交替显示;另一种为图像显示模式,根据文档扫描 图像识别过程中所获得的文本在图像上的对应位置,若采用途径一, 则将匹配的结果词条在原文档扫描图像上标记显示,同时将A和B双 语对照的词条内容列表显示出来;若采用途径二,不仅将翻译转换后 的目标文种文本与源文种识别文本按句交替显示,还可以在目标文种 文本中选中某句时,将该句在所述文档扫描图像上标记显示。

由以上实施例可以看出,本发明实施例能够实现对多文种的文档 扫描图像进行识别、分句、跨文种理解以及双语对照图文显示,为用 户提供了跨文种的文档翻译理解方法,实现了各文种、各民族文字信 息的获取、保存、交流与转换功能。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领 域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以 做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号