基于深度学习模型的图像文本检测和质量评价研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:Shauphei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在图像文本检测时,需要高效可靠的方法从图像中学习表征性强的文本特征。在无参考图像质量评价中,准确的质量评估也依赖关键质量特征的提取。在这两个应用中,有效自动地提取可视化数据中的有用信息(特征)非常关键。但是从实际应用的图像中,获取有效信息面临着巨大的挑战,包括数据的海量性和复杂多样性,不同应用需求的特征不同,传统启发式方法判别性不强等问题。研究人员希望特征学习算法具有增强的泛化能力和较少依赖于领域的知识。  深度学习通过建立、模拟人脑进行分析学习的网络,能从数据中学习,发现数据特征表示。由此,本文展开了运用深度学习模型来进行图像文本检测和质量评价的相关研究。主要研究了如何提取隐含字符特征提高文本检测准确率,并进一步研究学习与语言类别无关的文本特征,实现多语言文本检测,还研究了如何提取与视觉感知高度相关的质量特征,建立客观质量评价模型。具体研究工作与创新点如下:  (1)在自然图像的文本检测中,文本特征的有效提取很关键。在现有的特征提取方法中,基于卷积神经网络的方法能模拟视觉皮层感受野的行为,是目前主流的研究方法。但是由于卷积神经网络的复杂性,仍然可以通过许多技术的改进进一步提高网络性能。鉴于此,本文对传统卷积神经网络进行改进,提出了基于ICPT-CNN的文本定位检测算法。提出的ICPT-CNN网络架构具有:1)采用基于横向抑制的局部响应归一化对隐含特征进行处理,局部特征既具有不变性又具有可区分性,提高了特征表征能力;2)采用ReLUs激活函数在一定程度上降低了网络复杂度。实验结果表明 ICPT-CNN网络架构合理,提取的联合隐含特征优化性较好,该特征用于字符识别时具有较高的准确率。将学习到的联合特征用于图像文本检测,在标准ICDAR数据集上进行测试,本文 ICPT-CNN方法在保持与其他先进文本检测算法准确率相同的情况下,F-measure提高了1%。  (2)针对图像中多语言文本检测问题,提出一个基于SF-CNN的多语言文本检测算法。算法考虑了不同语言文字的先验约束,采用先学习笔画特征,再学习文本特征的递进方法。提出了基于数据空间局部分散度的K均值初始化,获得满足要求的初始化笔画特征,在此基础上,采用改进的K-means聚类算法学习到笔画特征。算法中提出的SF-CNN网络不同于传统卷积神经网络,卷积核不是随机产生的,而是以非监督学习的笔画特征作为第一个卷积层的卷积核,用于构建与语言类型无关的有效文本特征。此外,算法把高性能的深度学习方法与MSERs方法相结合,利用SF-CNN较强的学习能力提高MSERs方法检测准确率,也通过MSERs对低质量文本较强的检测能力弥补了SF-CNN网络难以应用高层特征对这类文本检测的不足,两者优势互补。大量实验结果表明基于SF-CNN的算法能有效学习到与语言类别无关的隐含文本特征,实现了自然场景中多种不同语言的文本信息检测。  (3)在无参考图像质量评价中,如何提取与视觉感知质量高度相关的图像特征是目前所面临的重要挑战。在现有的研究方法中,很少有基于卷积神经网络的评价方法,因为传统卷积神经网络的设计不是用于获取图像质量特征。本文将深度学习的思想引入图像质量评价研究中,提出了基于IQF-CNN的无参考图像质量评价算法。为了能够学习到具有NSS特性的图像质量特征,在预处理阶段,本文算法对图像做局部亮度系数归一化,消除局部平均位移和归一化局部方差,从变换域中提取可区分性特征。然后利用特征和图像主观质量训练IQF-CNN网络,得到无参考型图像客观质量评价模型。在IQF-CNN网络中为了提高学习能力,采用dropout技术防止过拟合,改进了网络层数和架构,使学习到的特征表征性更强。此外,提出的IQF-CNN框架允许学习和预测局部区域质量。通过实验详细分析了各种网络参数对图像质量评价性能的影响,并在LIVE数据集上进行了验证,为以后基于深度学习的图像质量评价研究提供了参考。同时,在LIVE和TID2008标准数据集上进行了一系列实验,实验结果表明本文算法能较准确的评估五种常用的图像失真,在各种失真上都与人眼主观感知质量具有较高的一致性,整体性能较优于其他经典评价方法。  本文研究的挑战来自于两个方面:1)在现有的研究基础上,提高深度学习方法在自然图像文本检测上的性能,不仅需要改进深度卷积网络内部的隐含特征处理技术,还需要能将深度学习方法与其他检测方法有效融合运用;2)运用基于 CNN的深度学习方法进行图像质量估计是一个较新的研究方向,没有太多相似经验可以参考,需要通过不断的探索和大量的实验随时分析并修正研究方法和策略。  综上所述,通过深入研究运用深度学习的方法于自然图像的文本检测和无参考图像质量评价,提出了上述若干深度学习框架下基于卷积神经网络的算法及实现。同时设计了一系列验证实验,在标准数据集上与现有常用方法进行比较,证实:通过设计合理的网络结构,结合适当的处理技术,深度卷积神经网络能具有较强的特征表达能力。预期在自然图像的应用研究中取得较好的性能。
其他文献
TCP/IP网络的成熟性、可扩展性和廉价性使得存储系统和TCP/IP网络的融合成为对中小型存储系统最有吸引力的方案之一。iSCSI(internet Small Computer System Interface)是由I
随着互联网与信息化技术的迅速发展,社会网络已逐渐引起人们的高度注意。通过对社会网络的研究,人们可以理解社会现象,预测人类行为,为社会结构的分析提供了极大地便利。但随
在网络舆情管理、互联网智能信息处理中,人们急需获取论坛中帖子内容,为进一步研究话题情感分析以及论坛话题传播服务。面对着海量的论坛信息,快速提取论坛中帖子内容可以及
缓存是计算机系统的关键部件,利用存取局域性提升I/O性能。目前通用的缓存替换算法仅以缺失率作为评判标准,忽略下层存储设备的特性。然而在固态硬盘和磁盘组成的磁电混合存
由于当今印刷技术的不断进步,利用伪造的印刷品进行的非法活动也变得更为容易和难以抑制。为了实现对印刷品图文的防伪、鉴别与跟踪,针对印刷品的数字水印成为了信息隐藏领域中
固态盘(Solid State Disk,SSD)相比传统机械硬盘在读写延迟、带宽、功耗、可靠性等方面都有很大提升,在目前的存储系统中应用越来越广泛。为了获得更大的容量,降低成本,提高
学位
随着计算机科学的不断发展,信息数据量呈爆炸性增长,给数据处理工作带来了一定的挑战,用户的查询也变的越来越复杂。由于需要处理的数据规模越来越大,进行的搜索也越来越困难
时空数据管理是时态数据管理和空间数据管理的统一体,包括时间与空间两个要素,主要用于管理和储存位置或形状随时间变化的空间对象。时空数据管理可以应用于环境变迁研究、行
如今,随着人们生活水平的提高,人们对高品位和个性化的追求也越来越强烈,量脚定制正顺应了“个性化定制”这一发展趋势。脚型的获取是量脚定制的基础,本文基于计算机视觉的多视点