论文部分内容阅读
现如今,人们正处于信息化的时代,研究学者们越来越热衷于从图像中获取所需的信息,而图像上的文本可以帮助人们更好的理解图像信息。因此,提取图像中的文本信息成为了近年来科研界的一个热门的研究任务,而自然场景下拍摄的图像非常复杂多变,给检测任务带来了极大的挑战。传统的机器学习方法已经不能满足任务的需求,得益于深度学习技术的推广和应用,给场景文本检测任务带来了新的机遇和可能性,广大研究学者纷纷将深度学习技术运用于检测任务中,提出了一系列经典的算法。基于此,本论文主要研究的是基于深度学习的场景文本检测方法,共提出了三种不同的场景文本检测方法,分别是:
(1)面向难例挖掘的分层级场景文本检测方法。之前很多基于深度学习的方法在进行文本特征的提取时,往往是多层次提取后再在最后一层特征图上进行预测和分类,这样不能充分利用中间层的特征信息。与此同时,网络训练时不注重困难样本和简单样本的区分,导致难样本训练不充分,检测精度不高。针对这些问题,本文提出了一种面向难例挖掘的分层级场景文本检测方法,即HST-DHE(A Hierarchical Scene Text Detector concerning Hard Examples)方法。该方法以全卷积神经网络为基本架构,逐像素预测文本区域,消除预定义锚框,利用特征金字塔分级预测,同时融入难例挖掘的思想,重新设计聚焦困难样本的损失函数,使网络更关注难分样本,进一步提高文字检测的精度。
(2)基于生成对抗网络和像素波动的场景文本检测方法。针对基于分割的方法往往不能产生令人满意的分割结果,提出了一种基于生成对抗网络和像素波动的场景文本检测方法,即GAPF(Curve Text Detection based on Generative Adversarial Networks and Pixel Fluctuations)方法。该方法将生成对抗网络引入文本检测领域,以生成对抗网络为主要框架,生成精准的文本分割结果,同时引入像素波动相关概念,将图像的像素波动信息作为一个条件输入到生成器网络中,增强平移和旋转不变的特征,最后,设计新的后处理算法,由分割结果生成文本的边界。
(3)基于显著图的弱监督场景文本检测方法。针对全监督方法对数据的标注非常耗时又成本昂贵的问题,提出了一种基于显著图的弱监督场景文本检测方法,即WSSM(Scene Text Detection based on Weakly Supervised and Saliency Map)方法。该方法受显著性目标检测的启发,在场景图像上利用分割网络生成文本区域的类别显著图,然后在类别显著图的基础上,对文本区域进行边界框的标注,最后将带有此标注的图像输入到网络中进行训练,以此代替人工标注。
(1)面向难例挖掘的分层级场景文本检测方法。之前很多基于深度学习的方法在进行文本特征的提取时,往往是多层次提取后再在最后一层特征图上进行预测和分类,这样不能充分利用中间层的特征信息。与此同时,网络训练时不注重困难样本和简单样本的区分,导致难样本训练不充分,检测精度不高。针对这些问题,本文提出了一种面向难例挖掘的分层级场景文本检测方法,即HST-DHE(A Hierarchical Scene Text Detector concerning Hard Examples)方法。该方法以全卷积神经网络为基本架构,逐像素预测文本区域,消除预定义锚框,利用特征金字塔分级预测,同时融入难例挖掘的思想,重新设计聚焦困难样本的损失函数,使网络更关注难分样本,进一步提高文字检测的精度。
(2)基于生成对抗网络和像素波动的场景文本检测方法。针对基于分割的方法往往不能产生令人满意的分割结果,提出了一种基于生成对抗网络和像素波动的场景文本检测方法,即GAPF(Curve Text Detection based on Generative Adversarial Networks and Pixel Fluctuations)方法。该方法将生成对抗网络引入文本检测领域,以生成对抗网络为主要框架,生成精准的文本分割结果,同时引入像素波动相关概念,将图像的像素波动信息作为一个条件输入到生成器网络中,增强平移和旋转不变的特征,最后,设计新的后处理算法,由分割结果生成文本的边界。
(3)基于显著图的弱监督场景文本检测方法。针对全监督方法对数据的标注非常耗时又成本昂贵的问题,提出了一种基于显著图的弱监督场景文本检测方法,即WSSM(Scene Text Detection based on Weakly Supervised and Saliency Map)方法。该方法受显著性目标检测的启发,在场景图像上利用分割网络生成文本区域的类别显著图,然后在类别显著图的基础上,对文本区域进行边界框的标注,最后将带有此标注的图像输入到网络中进行训练,以此代替人工标注。