论文部分内容阅读
自然场景中的文本有着丰富的语义信息,在自动驾驶、机器人导航、自动翻译等领域扮演着重要的角色,如何准确、高效地提取自然场景中的文本信息已成为当前计算机视觉的热点问题之一,此任务包含文本检测和文本识别两个子任务,前者是实现后者的前提。本文研究的是自然场景中的文本检测子任务,主要工作如下:(1)本文将采用基于Mask R-CNN框架模型的算法,因为其能够适应自然场景中的文本目标形状和旋转的变化。但原始的Mask R-CNN方法有较多的后处理步骤,这会造成效率的降低,同时也影响了性能。针对此问题,本文采用了基于角点回归的文本检测方法,并仅仅利用四边形非极大值抑制,对检测结果进行后处理。相比于原始的Mask R-CNN方法,该方法有着更少的后处理步骤和更高的文本检测性能。(2)原始的Mask R-CNN中的区域建议网络(Region Proposals Network,RPN)在训练时,需要人为设定一系列不同长宽比的锚点框(Anchors)。由于自然场景的文本目标的长宽比的动态范围较大,事先定义的尺寸难于覆盖这些范围,导致用于训练RPN的高质量正样本数量少,使得模型在测试阶段的文本目标召回率偏低。针对这些缺陷,本文提出了基于自适应区域建议网络的文本检测方法,有效地缓解了上述问题,并最终提高了文本目标的召回率。(3)原始的Mask R-CNN仅仅依赖感兴趣区域本身来判断目标的类别,当背景区域的纹理和文本相似时,上下文信息的缺失会导致算法常常将这些背景误判为文本目标。针对此问题,本文将自注意力机制的思想引入到文本检测任务中,该方法能够有效地构建候选区域的上下文信息,从而有效地抑制了伪正样本,因此提升了文本目标检测的精确率。本文上述提出的各种方法,其性能都在ICDAR 2015,MSRA-TD500等公开的数据集上得到了实验验证。