论文部分内容阅读
对自然场景中获取的图像进行文本检测和识别是计算机视觉领域的一个具有挑战性的课题和研究热点。与传统的光学字符识别(OCR)不同,自然图像中的文字往往具有不规则排布(如方向任意、弯曲文本、透视失真等)、复杂的背景、较大的噪声(如遮挡、分辨率低、明暗变化大等)等特点,难以检测和识别。针对场景文本的研究具有非常重要的理论意义和实用价值,这项技术被广泛应用于无人驾驶、信息安全审计等诸多方面,引起大量研究者的广泛关注。典型的场景文字检测与识别技术由两个部分组成:首先在一张图像中将文字检测出来,然后对检测出的文字进行识别。本文在文字检测算法中针对图像进行特征提取,然后采用物体检测算法将目标物体即文字检测出来。文字识别算法针对只包含文字的图像,从图片中提取特征并根据特征识别出计算机能够识别的字符序列。场景文本检测算法作为目标检测的一个分支,主要分为两大类:单阶段检测方法和二阶段检测方法。单阶段检测方法直接获得文本类别得分和位置坐标,速度快,但是准确度低。二阶段检测方法首先生成候选框然后再进行精细分类,分两步进行检测,速度慢,但是准确度高。本文所提出的场景文本检测模型主要依据二阶段检测算法中的代表Faster-RCNN,在特征提取阶段使用残差网络提取深度特征,同时结合改进的Inception网络,使提取的深度特征更适用于文本检测中长宽比较大的情况。在检测模块中,融合无锚框思想对RPN进行改进,将传统的基于区域预测的RPN结构改成基于点预测的anchor-free RPN,解决了目标检测只能检测水平物体的弊端,使模型能够应对场景文本多方向的特点。最后针对场景文本检测面临的样本不均衡问题,使用了focal loss取代传统的softmax损失函数,进一步提高模型精度。针对场景文本识别问题,本文提出了一种新的文本识别方法,该方法由文本矫正模块和字符识别模块两部分组成,对不规则文本具有较强的鲁棒性。文本校正模块使用空间转换网络对输入图像进行仿射变换,将输入图像中的不规则文本矫正为更“可读”的文本,有效地解决了文本排布方向变化对模型识别造成的影响。我们提出的字符识别模块是一种对位置更加敏感的基于注意力机制的序列学习模型。首先提取具有长期依赖的深度特征,然后使用基于注意力机制的长短期记忆网络层对字符序列进行预测输出。在损失函数选取方面,常用的Softmax-loss函数只考虑类之间的可分性,而本文中采用了新的损失函数,综合考虑分类,以及减少类内距离和增大类间距离三个问题,使模型能够学习到更多的具有判别力的特征,提高准确性。最终本文将场景文字检测和识别算法在SynthText、Synthetic Text、CDAR2003、ICDAR20013、ICDAR2015、ICDAR2017 MLT、IIIT 5K-Words、Street View Text、SVT-Perspective和CUTE80共10个通用且富有挑战性的场景文字图像数据集上进行训练和测试。实验结果表明我们提出的两种算法均能达到较好的效果,与目前最先进的算法性能相当。