论文部分内容阅读
自然场景图像中的文字具有丰富且精确的高层语义信息,是感知和理解图像内容的重要视觉元素。许多应用场景,如信息检索、实时翻译、自动驾驶、自动阅读、机器人流程自动化等,都需要利用到场景文字信息。因此,场景文字检测近年来受到了计算机视觉领域和文档分析与识别领域的广泛关注。但是,由于场景文字对象本身在尺度、形状、方向、语言、颜色、字体、排版和对齐等方面的多样性,场景图像背景的复杂性和某些背景区域纹理与文字的相似性,以及图像拍摄过程中引入的一些干扰因素,如不规则几何形变、模糊、非均匀光照、强曝光、遮挡等,场景文字检测依然是一个很有挑战性的研究课题。传统的基于滑动窗口或连通区域和手工设计特征的场景文字检测方法在真实场景下无法取得令人满意的性能。而且传统方法通常包含多个算法模块,每个模块分步地处理,整个文字检测流程复杂程度高。近年来,深度学习技术发展迅猛,展现出了极其强大的特征学习能力和可端到端优化的优秀特性,在计算机视觉、语音识别、自然语音处理等领域取得了突破性进展。本文基于深度学习算法,对场景文字检测问题开展了一系列研究工作:(1)提出一种端到端可训练的场景文字检测方法。之前(2016年以前)的场景文字检测方法都包含多个算法模块,每个模块分步操作,不能统一优化,文字检测流程复杂,容易造成误差累计。为了解决这个问题,本文受到通用物体检测框架Faster R-CNN的启发,首次提出一种端到端可训练的场景文字检测方法。该方法首先利用基于Inception多尺度卷积模块的文字候选区域生成网络,结合根据文字特性设计的矩形锚点框来生成高质量的文字候选区域。然后再利用文字校准网络,对每一个文字候选区域进行进一步地文字概率预测和边界框校准。在文字校准网络中,采用多层次的感兴趣区域池化算法为每个文字候选区域提取更丰富的特征表达,引入歧义性文字类别学习帮助网络学习更具鉴别性的特征来区分文字和背景区域。两个网络共享卷积神经网络特征,可以端到端学习优化,有效克服了之前方法的缺陷。该方法在ICDAR-2011和ICDAR-2013数据集上取得了超过同时期其他方法的检测性能。(2)提出一种高文字定位精度的场景文字检测方法。与其他的物体检测任务相比,文字检测任务对预测出来的边界框精准度要求更高,否则不仅会影响文字检测任务的性能,也会直接影响后端文字识别任务的结果。本文对场景文字检测中文字定位精度问题进行研究,发现原始的边界框回归模块对文字边界框预测并不够精准。本文从一个新的角度出发,将边界框定位问题从回归问题定义为更为简单的细粒度的二分类问题,提出用Loc Net定位模块替代边界框回归模块。实验表明,与边界框回归模块相比,Loc Net定位模块可以预测出更为精准的文字边界框,从而显著提高文字检测算法的性能。另外,对小尺度文字检测不鲁棒和容易对纹理像文字的背景区域误检的两个场景文字检测难点问题,本文也提出可行性技术解决方案。本文还提出一个简单有效的级联的多方向场景文字检测算法,巧妙地将多方向文字检测问题转化为水平方向文字检测问题。在多个公开的水平方向和多方向场景文字检测数据集上,本文方法都取得了优越的检测性能。(3)提出一种新颖的不基于锚点框机制的候选区域生成网络,并把它应用到多方向和任意形状的场景文字检测任务。现有的大部分基于深度学习的自上而下的文字检测方法都基于锚点框机制,都需要人工设计各种尺度、长宽比和倾斜角度的锚点框来生成文字候选区域或检测出文字实例,这给这一类方法带来了一定程度的复杂性和不灵活性。为了解决这个问题,本文提出一种不基于锚点框机制的候选区域生成网络,通过对落在文字中心区域的滑动点直接预测其对应的文字实例的边界框位置坐标,从而能以不基于锚点框的方式生成高质量的文字候选区域。另外,本文还提出一种尺度友好性学习方式,显著提升网络对各种尺度文字检测的鲁棒性。实验表明,与其他基于锚点框机制的候选区域生成网络相比,本文方法不仅更加简单灵活,而且有着更优越的文字候选区域提取性能。本文将不基于锚点框机制的候选区域生成网络嵌入到Faster R-CNN和Mask R-CNN框架中,在多个公开的水平方向、多方向和任意形状场景文字检测数据集上,都取得了很好的检测结果。目前,不依赖于锚点框的检测思想在物体检测领域也非常流行,这也进一步地证明了本文方法的通用性。