首页> 中文学位 >图像视频复杂场景中文字检测识别方法研究
【6h】

图像视频复杂场景中文字检测识别方法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 研究背景和意义

1.2 国内外研究现状

1.3 存在的主要问题

1.4 本文的主要研究内容

1.5 本文章节安排

第二章 基于Gabor和SVM的复杂背景中文字检测

2.1 引言

2.2 基于Gabor滤波器组的特征提取

2.3 基于SVM的文本区域检测

2.4 实验结果及分析

2.5 本章小结

第三章 基于深度学习的复杂背景文字区域定位

3.1 引言

3.2 深度学习网络

3.3 基于深度学习的文字区域定位

3.4 实验结果及分析

3.5 本章小结

第四章 基于分层技术的复杂场景中重叠文本检测和识别

4.1 引言

4.2 基于FCM的图像分层

4.3 基于Adaboost的文本区域定位

4.4 基于层的识别结果验证

4.5 实验分析

4.6 本章小结

第五章 基于Google的OCR识别结果校对方法

5.1 引言

5.2 基于N-Gram和Google的查错

5.3 基于Google拼写校对和词语可信度的纠错

5.4 实验结果与分析

5.5 本章小结

第六章 基于云计算架构的视频文本检测和识别平台

6.1 引言

6.2 基于MapReduce模型的文字检测和识别

6.3 实验结果与分析

6.4 本章小结

第七章 总结与展望

7.1 总结

7.2 展望

致谢

参考文献

攻读博士学位期间的研究成果

展开▼

摘要

近年来,随着计算机技术、多媒体技术和网络技术的不断发展,图像和视频资源日益丰富,从这些海量图像、视频中获取感兴趣的信息已经成为当前多媒体信息技术研究的热点。图像、视频中的文字包含丰富的语义信息,是理解图像、视频内容的重要线索,提取和识别这种图像、视频中的文字对于图像理解、视频内容分析、基于内容的图像和视频检索等领域具有重要意义。由于图像、视频中的文字通常叠加在复杂的背景之上,背景的干扰使得现有 OCR(Optical Character Recognition)技术难以获得较好的识别结果,因而如何从图像、视频复杂场景中检测识别文字成为一个重要的研究课题。
  本文以图像、视频复杂场景为研究背景,围绕在复杂场景中文字检测和识别进行研究,根据文字纹理特征,研究了复杂背景中文字的检测、复杂场景中重叠文本的检测和识别、OCR识别结果的校对以及海量视频文本检测识别等问题。概括起来,本文所取得的主要研究成果包括:
  首先提出了一种基于Gabor和SVM的复杂背景中文字检测方法,通过不同方向尺度的 Gabor滤波器得到表示中文字符横、竖、撇、捺四个方向的纹理图像,使用SVM分类器对纹理图像进行训练,通过构建一个SVM分类网络来得到最终的文字区域。实验结果表明,该方法对复杂背景下中文字符的检测具有较好的效果。
  其次提出了一种利用深度学习算法进行文字区域定位的方法,利用 Gabor滤波器提取文字区域的纹理特征,然后使用DBN网络进行分类,由于DBN网络对高维特征向量具有很强的提取特征和分类能力,因此能够用来区分文字区域和背景区域。实验结果表明,深度学习网络具有较高的分类准确性,效果要好于传统的神经网络、SVM等方法。
  接着针对前面所提出的方法在检测复杂场景中重叠文本时受背景干扰比较大的问题,提出了一种复杂场景中重叠文本检测和识别的方法。首先利用聚类的方法将复杂场景图像转换成多个具有单一背景的层图像,在每一个层图像中使用连通分量分析方法,得到该层图像中的候选文本连通分量,采用级联Adaboost分类器根据文本区域的特征剔除非文本连通分量,再用OCR包对文本连通分量进行识别,最后利用图像层之间的关系对识别结果进行验证。对于复杂场景下重叠文本的识别,该方法明显优于其他方法。
  然后提出了一种基于Google的文字识别结果校对方法,由于很多字符、文字具有相似性,OCR软件识别过程会产生一些错误,现有的 OCR识别结果校对方法主要是利用自然语言规律统计大量的语料库进行语法判断。本文提出了一种基于 Google的 OCR识别结果校对方法,将传统的基于 N-Gram语料库的方法和Google知识库相结合,利用Google知识库来不断的丰富传统的语料库,有效地解决了传统 N-Gram方法在字典词汇量有限,对新词、专有名词无法校对的问题。该方法实用性比较强,有效地提高了自然场景图像中OCR的识别率。
  最后实现了一个基于云计算架构的视频文本检测和识别系统平台,随着大数据时代的到来,现有的文字识别方法遇到了很大的挑战,很难快速的应用到大数据中进行视频文本内容的识别。本文通过连接大量的计算机搭建一个云计算网络,使用MapReduce分布模型实现了视频关键帧的提取,文本检测与识别,识别结果的校对等功能,构建了一个基于云的海量视频文本识别平台,解决了海量视频的文本内容识别问题。
  另外,本文还分析了当前图像视频复杂场景中文字识别研究中存在的问题,指出了进一步的研究方向。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号