论文部分内容阅读
随着低成本高性能移动、数码或可穿戴设备的成熟和普及,以及互联网和移动互联网技术的高速发展,越来越多的新型应用场景中需要利用图像中的文字信息,从而使得自然场景中的文字提取技术成为了近几年计算机视觉领域的热门研究课题。而文字检测技术作为文字提取技术中的一个核心前端模块,同样受到越来越多学者的关注。然而文字本身的高变化度(如各种各样的字体、大小等)加上自然场景中的不均匀光照,遮挡,模糊,透视变换等客观因素使得自然场景图像中的全自动文字检测问题变得极为困难。本文针对该问题的各个难点进行了深入的分析,提出了一套基于Color-enhanced CER和浅层神经网络的全自动文字检测系统,并在标准数据集上验证了算法的有效性。此外,在某些特定的应用场景中可以巧妙地利用用户的交互信息来简化文字检测问题的难度,这类问题被称为基于用户意图的文字检测问题。本文对该类问题也进行了深入的研究,并验证了图像的组件树结构对于解决基于用户意图的文字检测问题的有效性。所以,本文的主要工作可以被划分为自动的文字检测和基于用户意图的文字检测两个部分。自动的文字检测主要包含两个核心子问题,即候选文字连通区域提取和文字/非文字分类。针对第一个问题,本文首先从理论上分析了经典的极值区域方法作为候选文字连通区域的局限性。为了抑制这些局限性,本文对极值区域算法提出改进,并提出Color-enhanced CER算法来作为本文的候选文字连通区域提取算法。文字/非文字分类是文字检测问题的瓶颈问题,本文从理论上深入阐明了该问题的主要难点及其原因,并指出歧义性问题和不平衡分类问题是导致作为少数类的文字类泛化能力差的重要原因,而这也正是之前的文字检测算法召回率低的一个重要原因。为了解决这个问题,本文算法在特征层面,系统层面以及训练数据准备层面上都提出了相应的有效解决方法。在特征层面,本文没有像之前的方法一样采用人工设计的特征,而是直接利用神经网络从后续文字连通区域所对应的二值图的原始像素中学出有用的特征,该方法一方面可以避免人工特征提取过程中有用信息的损失,另一方面可以降低算法的计算复杂度。在系统层面,为了克服歧义性问题,本文先利用孤立候选文字连通区域的形状或者纹理信息尽可能滤除无歧义非文字连通区域,以此简化后面文本行生成算法的难度,再利用文本行信息消除孤立候选文字连通区域的歧义性问题。其中,为了简化孤立候选文字连通区域的文字/非文字分类问题,本文提出“分治”策略将原始问题空间根据文字本身的特有属性切分为五个子空间,每个子空间分别利用无歧义学习策略训练相应的浅层神经网络分类器进行文字/非文字分类。在训练数据准备层面,无歧义学习策略可以很好地抑制歧义性问题和不平衡分类问题导致文字类泛化能力差的问题,从而使得在准备分类器训练数据的时候可以尽可能多且安全地使用从字体库合成的样本作为训练正样本。使用合成数据,一方面可以降低数据标注的工作量,另一方面保证训练数据干净且分布均匀,有助于分类器的性能。另外,通过无歧义学习策略可以有效地采样出少量且重要的非文字样本训练集,从而可以解决数据集不平衡问题。由于无歧义学习策略对原始的歧义性问题进行了简化,所以在通过该策略得到的训练数据集上,浅层神经网络可以得到接近深度神经网络的结果,这样一来本文就可以直接选用浅层神经网络作为各个文字/非文字分类器,从而大幅降低算法的计算复杂度。本文提出的文字检测算法在标准数据集ICDAR-2011和ICDAR-2013测试集上都取得了很好的结果。针对基于用户意图的文字检测问题,本文提出可以利用图像的组件树结构来解决该问题,并验证了图像的组件树结构在解决基于用户意图的文字检测问题上的有效性。相比于传统的扫描线法,本文提出的基于组件树的算法大幅提升了检测的准确度。之后本文又对初始算法提出改进,设计了一套改进版的基于组件树的算法,进一步提升了算法的性能。