基于深度学习模型的图像文本检测和质量评价研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在图像文本检测时，需要高效可靠的方法从图像中学习表征性强的文本特征。在无参考图像质量评价中，准确的质量评估也依赖关键质量特征的提取。在这两个应用中，有效自动地提取可视化数据中的有用信息（特征）非常关键。但是从实际应用的图像中，获取有效信息面临着巨大的挑战，包括数据的海量性和复杂多样性，不同应用需求的特征不同，传统启发式方法判别性不强等问题。研究人员希望特征学习算法具有增强的泛化能力和较少依赖于领域的知识。
　　深度学习通过建立、模拟人脑进行分析学习的网络，能从数据中学习，发现数据特征表示。由此，本文展开了运用深度学习模型来进行图像文本检测和质量评价的相关研究。主要研究了如何提取隐含字符特征提高文本检测准确率，并进一步研究学习与语言类别无关的文本特征，实现多语言文本检测，还研究了如何提取与视觉感知高度相关的质量特征，建立客观质量评价模型。具体研究工作与创新点如下：
　　（1）在自然图像的文本检测中，文本特征的有效提取很关键。在现有的特征提取方法中，基于卷积神经网络的方法能模拟视觉皮层感受野的行为，是目前主流的研究方法。但是由于卷积神经网络的复杂性，仍然可以通过许多技术的改进进一步提高网络性能。鉴于此，本文对传统卷积神经网络进行改进，提出了基于ICPT-CNN的文本定位检测算法。提出的ICPT-CNN网络架构具有：1）采用基于横向抑制的局部响应归一化对隐含特征进行处理，局部特征既具有不变性又具有可区分性，提高了特征表征能力；2）采用ReLUs激活函数在一定程度上降低了网络复杂度。实验结果表明 ICPT-CNN网络架构合理，提取的联合隐含特征优化性较好，该特征用于字符识别时具有较高的准确率。将学习到的联合特征用于图像文本检测，在标准ICDAR数据集上进行测试，本文 ICPT-CNN方法在保持与其他先进文本检测算法准确率相同的情况下，F-measure提高了1％。
　　（2）针对图像中多语言文本检测问题，提出一个基于SF-CNN的多语言文本检测算法。算法考虑了不同语言文字的先验约束，采用先学习笔画特征，再学习文本特征的递进方法。提出了基于数据空间局部分散度的K均值初始化，获得满足要求的初始化笔画特征，在此基础上，采用改进的K-means聚类算法学习到笔画特征。算法中提出的SF-CNN网络不同于传统卷积神经网络，卷积核不是随机产生的，而是以非监督学习的笔画特征作为第一个卷积层的卷积核，用于构建与语言类型无关的有效文本特征。此外，算法把高性能的深度学习方法与MSERs方法相结合，利用SF-CNN较强的学习能力提高MSERs方法检测准确率，也通过MSERs对低质量文本较强的检测能力弥补了SF-CNN网络难以应用高层特征对这类文本检测的不足，两者优势互补。大量实验结果表明基于SF-CNN的算法能有效学习到与语言类别无关的隐含文本特征，实现了自然场景中多种不同语言的文本信息检测。
　　（3）在无参考图像质量评价中，如何提取与视觉感知质量高度相关的图像特征是目前所面临的重要挑战。在现有的研究方法中，很少有基于卷积神经网络的评价方法，因为传统卷积神经网络的设计不是用于获取图像质量特征。本文将深度学习的思想引入图像质量评价研究中，提出了基于IQF-CNN的无参考图像质量评价算法。为了能够学习到具有NSS特性的图像质量特征，在预处理阶段，本文算法对图像做局部亮度系数归一化，消除局部平均位移和归一化局部方差，从变换域中提取可区分性特征。然后利用特征和图像主观质量训练IQF-CNN网络，得到无参考型图像客观质量评价模型。在IQF-CNN网络中为了提高学习能力，采用dropout技术防止过拟合，改进了网络层数和架构，使学习到的特征表征性更强。此外，提出的IQF-CNN框架允许学习和预测局部区域质量。通过实验详细分析了各种网络参数对图像质量评价性能的影响，并在LIVE数据集上进行了验证，为以后基于深度学习的图像质量评价研究提供了参考。同时，在LIVE和TID2008标准数据集上进行了一系列实验，实验结果表明本文算法能较准确的评估五种常用的图像失真，在各种失真上都与人眼主观感知质量具有较高的一致性，整体性能较优于其他经典评价方法。
　　本文研究的挑战来自于两个方面：1）在现有的研究基础上，提高深度学习方法在自然图像文本检测上的性能，不仅需要改进深度卷积网络内部的隐含特征处理技术，还需要能将深度学习方法与其他检测方法有效融合运用；2）运用基于 CNN的深度学习方法进行图像质量估计是一个较新的研究方向，没有太多相似经验可以参考，需要通过不断的探索和大量的实验随时分析并修正研究方法和策略。
　　综上所述，通过深入研究运用深度学习的方法于自然图像的文本检测和无参考图像质量评价，提出了上述若干深度学习框架下基于卷积神经网络的算法及实现。同时设计了一系列验证实验，在标准数据集上与现有常用方法进行比较，证实：通过设计合理的网络结构，结合适当的处理技术，深度卷积神经网络能具有较强的特征表达能力。预期在自然图像的应用研究中取得较好的性能。

著录项

作者
李琳;
展开▼
作者单位

华中科技大学;

展开▼
授予单位华中科技大学;
学科计算机系统结构
授予学位博士
导师姓名余胜生;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习;
关键词
深度学习; 卷积神经网络; 图像文本检测; 图像质量; 特征提取; 视觉感知;

相似文献

中文文献
外文文献
专利

1. 基于无人机图像以及不同机器学习和深度学习模型的小麦倒伏率检测 [J] . Paulo FLORES ,张昭 . 智慧农业(中英文) . 2021,第002期
2. 基于CT双期增强图像的深度迁移学习模型对甲状腺良恶性结节的分类研究 [J] . 孟名柱 ,潘昌杰 ,张铭 . 放射学实践 . 2021,第008期
3. 基于宫颈上皮与血管特征的阴道镜图像深度学习模型探索 [J] . 李燕云 ,华克勤 ,王永明 . 复旦学报（医学版） . 2021,第004期
4. 基于深度学习模型的图像分析算法综述 [J] . 扈晓君 ,郭一铭 . 软件 . 2021,第008期
5. 基于无人机图像以及不同机器学习和深度学习模型的小麦倒伏率检测 [J] . Paulo FLORES ,张昭 . 智慧农业 . 2021,第002期
6. 基于深度学习模型的多标签图像自动标注 [C] . LI Jian-Cheng ,黎健成 ,YUAN Chun . 第十一届和谐人机环境联合会议 . 2015
7. 基于多特征融合的图像质量评价深度学习模型 [A] . 刘海 . 2020

基于深度学习模型的图像文本检测和质量评价研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅