论文部分内容阅读
自然场景下的图像文本区域蕴含着大量具有使用价值的信息,为场景文本分析提供了一定的基础。而且自然场景下的文本检测算法也是众多计算机视觉领域的应用基础。比如获取车牌信息、交通标志信息等。本文将针对自然场景下水平方向上和任意多方向上的区域进行文本检测算法研究。完成的主要工作如下:1.自然场景下的文本检测相关算法。首先是介绍了图像的相关预处理,包括图像的预处理和图像的目标显著性。然后详细的阐述了文本候选区域特征提取算法,其中包括笔画宽度变换和最稳定极值区域。最后详细的介绍了深度神经网络的相关层以及每层的前向和反向传播算法。2.自然场景下水平方向上的文本检测。针对水平方向上的文本区域,本文提出一种基于垂直区域回归网络的方法,若直接采用Faster-Rcnn框架算法中的候选区域网络(Region Proposcal Network RPN)方法对文本进行检测会有一定的限制,一方面,由于文本区域具有可变长度、背景复杂、多样化等因素,网络必须设计更大的感受野;另一方面,在训练阶段正样本的选择不能以传统物体检测方式测量,需要在训练阶段基于真值框(ground-truth)与候选框(Anchor)在垂直方向上交集与并集之比(Intersection-overUnion,IOU)大于某个阈值的情况下选择正样本,且在垂直方向上对正样本进行回归。最后由多个相邻的Anchors组合成文本区域。该方法可以使得更多的小候选框来覆盖文本区域,从而提高文本检测的召回率,且有效的解决了具有可变长度的文本区域。实验结果表明在ICDAR2011、ICDAR2013水平方向数据集上召回率分别达到0.815和0.826的效果。3.自然场景下任意方向上的文本检测。针对任意方向上的文本区域,在Fasterrcnn基础之上,本文提出了一种基于多角度方向上的文本区域进行训练算法。主要改进有两点:第一,改进RPN框架用于生成不同方向及比例尺寸的文本候选框;第二,在Faster-rcnn训练的第二阶段,采用仿射变换算法改进原始的ROI(region of interest)层的映射方式,提出A-ROIPooling层算法,该算法有利于处理各种多方向的文本区域。实验结果表明,算法具有一定的可行性及有效性,在MSRA-TD500数据集上召回率和F1得分分别能达到0.868和0.781。