论文部分内容阅读
文字,作为人类智慧的结晶,是人类文明最重要的标志之一。从古至今,文字在我们的生活中都发挥着不可或缺的作用。文字包含丰富而精确的语义信息在基于视觉理解的任务中应用广泛,因此自然场景文本检测与识别变得越来越重要,并且成为计算机视觉和文档分析中一个研究热点。近年来,该领域取得了大量的研究成果和巨大研究进展,但是对于自然场景图像中的文字提取与识别,仍然面临诸多挑战,如噪声、模糊和失真等。为此,本文针对现存的问题进行了深入的研究,取得如下创新性成果。针对自然场景文本检测,本文提出基于多通道多尺度检测最大稳定极值区域与由粗到细的级联过滤的文本定位方法。首先,本文选取合适的颜色通道和尺度提取最大稳定极值区域作为字符候选区域。然后,设计一个由粗到细的级联过滤器用于去除误检,粗过滤器基于一些简单的形态学特征和笔画宽度特征,细过滤器由二分类卷积神经网络训练得到。最后,对剩余的字符候选区域,通过图模型合并成水平或者多方向字符串。本文提出的方法在ICDAR2013数据集Challeng2以及多方向自然场景数据集USTB-SV1K上进行了测试,实验结果显示本文方法快速而有效。F-score在ICDAR2013达到了83.84%,在更具挑战的USTB-SV1K数据库上达到了51.15%,性能优于当前流行的自然场景文本检测算法。针对自然场景文本识别,基于深度学习技术的发展,我们将文本识别转化成序列标注任务,提出基于上下文内容的隐分割自然场景文本识别方法。首先,对输入图像进行预处理,使之符合网络结构。然后,利用卷积神经网络提取单词图像的序列特征。之后,利用循环神经网络中的双向长短时记忆网络对序列特征进行处理输出预测结果。最后,利用时域连接模型对预测结果进行转录,得到最终的识别结果。本方法在ICDAR2013的Challenge1、2和4上进行了测试,实验结果表明本方法具有良好的识别效果以及较快的识别速度。基于本文提出的自然场景文本检测算法和自然场景文本识别算法,我们可以得到端对端的自然场景文本检测与识别系统。此外,针对多方向文本,我们通过文本检测提取其方向,然后加以倾斜矫正,可以有效的提升其识别率。由于单词比字符包含更高的语义信息,我们将文本识别算法与文本定位方法的结果结合,用于提升文本定位的准确性。