图像视频复杂场景中文字检测识别方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来,随着计算机技术、多媒体技术和网络技术的不断发展,图像和视频资源日益丰富,从这些海量图像、视频中获取感兴趣的信息已经成为当前多媒体信息技术研究的热点。图像、视频中的文字包含丰富的语义信息,是理解图像、视频内容的重要线索,提取和识别这种图像、视频中的文字对于图像理解、视频内容分析、基于内容的图像和视频检索等领域具有重要意义。由于图像、视频中的文字通常叠加在复杂的背景之上,背景的干扰使得现有 OCR(Optical Character Recognition)技术难以获得较好的识别结果,因而如何从图像、视频复杂场景中检测识别文字成为一个重要的研究课题。
　　本文以图像、视频复杂场景为研究背景,围绕在复杂场景中文字检测和识别进行研究,根据文字纹理特征,研究了复杂背景中文字的检测、复杂场景中重叠文本的检测和识别、OCR识别结果的校对以及海量视频文本检测识别等问题。概括起来,本文所取得的主要研究成果包括:
　　首先提出了一种基于Gabor和SVM的复杂背景中文字检测方法,通过不同方向尺度的 Gabor滤波器得到表示中文字符横、竖、撇、捺四个方向的纹理图像,使用SVM分类器对纹理图像进行训练,通过构建一个SVM分类网络来得到最终的文字区域。实验结果表明,该方法对复杂背景下中文字符的检测具有较好的效果。
　　其次提出了一种利用深度学习算法进行文字区域定位的方法,利用 Gabor滤波器提取文字区域的纹理特征,然后使用DBN网络进行分类,由于DBN网络对高维特征向量具有很强的提取特征和分类能力,因此能够用来区分文字区域和背景区域。实验结果表明,深度学习网络具有较高的分类准确性,效果要好于传统的神经网络、SVM等方法。
　　接着针对前面所提出的方法在检测复杂场景中重叠文本时受背景干扰比较大的问题,提出了一种复杂场景中重叠文本检测和识别的方法。首先利用聚类的方法将复杂场景图像转换成多个具有单一背景的层图像,在每一个层图像中使用连通分量分析方法,得到该层图像中的候选文本连通分量,采用级联Adaboost分类器根据文本区域的特征剔除非文本连通分量,再用OCR包对文本连通分量进行识别,最后利用图像层之间的关系对识别结果进行验证。对于复杂场景下重叠文本的识别,该方法明显优于其他方法。
　　然后提出了一种基于Google的文字识别结果校对方法,由于很多字符、文字具有相似性,OCR软件识别过程会产生一些错误,现有的 OCR识别结果校对方法主要是利用自然语言规律统计大量的语料库进行语法判断。本文提出了一种基于 Google的 OCR识别结果校对方法,将传统的基于 N-Gram语料库的方法和Google知识库相结合,利用Google知识库来不断的丰富传统的语料库,有效地解决了传统 N-Gram方法在字典词汇量有限,对新词、专有名词无法校对的问题。该方法实用性比较强,有效地提高了自然场景图像中OCR的识别率。
　　最后实现了一个基于云计算架构的视频文本检测和识别系统平台,随着大数据时代的到来,现有的文字识别方法遇到了很大的挑战,很难快速的应用到大数据中进行视频文本内容的识别。本文通过连接大量的计算机搭建一个云计算网络,使用MapReduce分布模型实现了视频关键帧的提取,文本检测与识别,识别结果的校对等功能,构建了一个基于云的海量视频文本识别平台,解决了海量视频的文本内容识别问题。
　　另外,本文还分析了当前图像视频复杂场景中文字识别研究中存在的问题,指出了进一步的研究方向。

著录项

作者
颜建强;
展开▼
作者单位

西安电子科技大学;

展开▼
授予单位西安电子科技大学;
学科信息与通信工程
授予学位博士
导师姓名高新波;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP391.43;
关键词
图像视频复杂场景; 文字检测识别; 重叠文本; OCR校对; 云计算;

相似文献

中文文献
外文文献
专利

1. 基于 ORB和 GroupSAC复杂场景视频图像的快速角点检测 [J] . 王丽芳 ,赵雅楠 ,秦品乐 . 科学技术与工程 . 2017,第002期
2. 生产线复杂场景钢坯检测识别的定位方法研究 [J] . 俞喆俊 ,洪汉玉 ,章秀华 . 光电工程 . 2012,第001期
3. 基于移动增强现实技术的复杂场景视频图像多目标跟踪 [J] . 黄珍 ,潘颖 . 辽东学院学报（自然科学版） . 2021,第001期
4. 一种基于3G的复杂场景下视频图像传输系统 [J] . 柯洪昌 ,孔德刚 . 电子世界 . 2014,第008期
5. 一种复杂场景下视频图像跟踪系统 [J] . 柯洪昌 . 计算机光盘软件与应用 . 2014,第005期
6. 计算机视频泄漏发射中文字信息的检测方法 [C] . 石珺 ,魏冬 ,袁恒 . 第二十五届全国信息保密学术会议（IS2015) . 2015
7. 视频图像中文字识别技术的应用研究 [A] . 杨宁 . 2007

图像视频复杂场景中文字检测识别方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅