论文部分内容阅读
文本识别及其相关问题一直都是计算机视觉领域的热点与难点,其技术已普遍应用于语言翻译、辅助驾驶、地理定位、图像检索等诸多方面,早在几十年前科研工作者们就开始了相关研究。虽然针对文档图像的识别技术已经日渐成熟,但在场景图像上仍然面临着巨大的挑战。多变的表现形式使得场景文本在字体、尺寸、形状、颜色、排版等存在着各式各样的组合,而复杂的背景环境和不受限的成像条件又给文本识别带来了更大的困难。本文就场景图像中的文本检测、识别及其相关问题展开全面和深入的研究,重点关注于简洁、高效的思路或方法。旨在通过这些工作能对研究现状中存在的不足提出新的解决方案,并对其在相关场景下进行验证和部署,以展现其良好的通用性和实用性。本文的研究工作主要分为以下几点:(1)为减少对锚框设计的依赖,本文提出了一种简单、高效的实时文本检测网络,它在每个检测位置仅需设定一个基本的参考框。该网络的特点在于将学习机制引入到单阶段检测框架中,将经回归优化后的学习锚框代替初始锚框进入到最终预测中。该网络模型在多个公开测试集中均取得了优秀的检测精度,并且在检测速度上超越了同期所有基于锚框的检测方法。(2)本文提出了一种不依赖于任何先验知识的两阶段多方向文本检测网络。它创新性的利用定位和链接文本框的四个角点来生成候选,代替滑动锚框扫描全图的方式去估计文本可能存在的位置及形状。利用角点生成的四边形候选框是几何自适应的,这使得该检测模型对于文本的尺度、形状相对不敏感。此外,我们提出了一种名为Dual-Ro I Pooling的池化层,它是一种内置于网络的数据增强模块,能更加有效的利用训练数据从而稳定提高检测鲁棒性。在多个公开数据集上的测试结果证明了我们方法的有效性,同时在检测效率方面也非常具有竞争力。(3)我们分析认为影响不规则文本图像识别精度的主要原因在于背景在图像中占比较重,而标准卷积其固定的感受野及采样点会引入较多冗余的无关信息。本文利用可变形卷积层几何结构可调的特性,提出了一种无需额外附加操作的聚焦增强识别网络。通过端对端的训练使卷积核能学习调整其采样位置,从而提取到更具表征力的相关卷积特征。在多个公开数据集上的测试结果证明了该网络相对于基准模型的提升,并且获得了当时较优的识别精度。(4)现有基于深度学习的文本识别网络需要大量的标注数据进行模型训练,而现有的文本序列图像合成方法通常需要一系列较为复杂的处理流程。本文提出将序列图像的生成看作为一种图像到图像转换,利用生成对抗网络将简单的字符序列语义图转换为逼真的场景文本图像,整个过程仅需两步即可完成。多项生成图像的评价标准和实际的文本识别精度证明了该方法的有效性。(5)结合我们之前的工作,本文提出了一套完整且通用的端对端文本识别网络。它将多个相关任务进行整合,仅需一次前向传播即可同时完成文本检测与识别。多个分支网络共享卷积特征,通过多任务训练的方式让网络能提取到更具针对性的卷积特征。基于轻量化的骨架网络和简洁的分支架构,使得网络在精确识别的同时保持了完全实时的处理速度。此外,我们将之应用于车牌识别中,在不改变大部分网络参数的情况下展示了优秀的识别精度,证明了其良好的通用性。最后,本文所有已发表的工作都已将相关代码和数据进行了开源,具体请详见各大章节。