论文部分内容阅读
文字作为信息传递的重要载体之一,包含了丰富的语义信息,图像中的文本信息能够帮助人们更好的理解场景。通常,自然场景文本图像背景复杂,同时模糊、光照不足、透视变形等情况时有发生;另外,自然场景文本自身形态多样:颜色和字体多变、长度不一、排列方向任意、语种多样等等。以上问题加大了自然场景文本检测与识别的难度。近年来,特别是深度学习时代到来之后,自然场景文本检测与识别成为计算机视觉领域的一个研究热点。针对自然场景文本检测与识别的难点问题,结合深度神经网络,本文提出基于旋转感知文本区域候选网络的自然场景文本检测方法,实现多方向、多尺度、多语言的自然场景文本检测;在检测的基础上,研究自然场景文本识别,提出基于残差递归神经网络的自然场景文本识别方法,实现多语言的自然场景文本识别。具体介绍如下:(1)受启发于Faster R-CNN,提出一个旋转感知的文本区域候选网络(Rotationaware Text Proposal Network,RTPN),用于自然场景图像中的多方向文本检测。首先,使用ResNet-101作为骨架网络,进行特征提取;然后,设计了一个角度敏感的anchor机制,用于生成多方向的候选框,检测多方向的文本区域;接着,引入多方向的ROI Align池化层,从多方向的文本候选区域和卷积层的特征图中得到固定大小的特征向量。最后,使用改进的NMS剔除冗余的候选框,得到最终的文本包围框。该方法可以同时检测多方向、多尺度、多语言的自然场景文本,具有较高的精度和效率。所提出的方法在ICDAR 2013,ICDAR 2015,MSRA-TD500和RCTW-17 4个基准数据集上的F-measure分别为0.88,0.84,0.83和0.61,实验结果验证了此方法的有效性。(2)提出一个残差递归神经网络,用于自然场景中的多语言文本识别。整个网络包括两个阶段:编码阶段和解码阶段。编码阶段首先使用ResNet网络对输入图像进行特征提取;为了提取文本的上下文信息,在ResNet特征提取之后,使用多层双向长短时记忆模型(Bidirectional Long-Short Term Memory,BLSTM)得到字符特征序列;然后,将编码得到的字符特征序列传到解码网络。为了解决传统编码-解码模型不能处理任意长度字符的问题,在解码网络中引入了注意力机制,此机制能够学习字符序列的全局信息,提高识别精度;为了避免传统RNN网络的梯度消失和梯度爆炸的发生,将传统的RNN单元改为门控循环单元(Gate Recurrent Unit,GRU);另外,使用GRU作为解码网络可减少网络参数,因此加快了训练速度。该方法可有效识别多语言的自然场景文本。使用IIIT5K,SVT,ICDAR 2013和ICDAR 2015 4个数据集测试英文文本的识别性能,识别准确率分别为0.825,0.863,0.912和0.723;使用MSRA-TD500,RCTW-17和自制数据集测试中英文混合文本的识别性能,实验结果验证了此方法的有效性。此外,将识别网络与RTPN相结合,实现了端到端的自然场景文本识别,可有效识别多语言(英文和中文)的自然场景文本。