论文部分内容阅读
文字识别是模式识别领域的核心分支之一,近年来,场景文字识别这一子问题得到研究者的广泛关注,场景图像中的文字识别对比传统的印刷文档识别和手写文档识别有其独特的问题,例如图像中背景往往比较复杂,图像质量受光照、分辨率等影响较大,这些特点使得场景文字识别具有很大的挑战性。本文以场景图像中的英文词识别和数字串识别为任务,对自然场景文字中的切分和文本行识别方法进行了研究,主要研究内容分为两部分: 1、提出了一种基于多层感知机的场景文字过切分方法。该方法利用神经网络分类器的高效的判别性能,以滑动窗的形式在文本行中定位字符间的间隔,对比传统的基于启发式的过切分取得了更高的切分点召回率和精度。基于该方法的场景文字识别系统在多个标准数据集上取得了比现有方法更好的性能。 2、提出了一种基于递归神经网络(Recurrent Neural Network,RNN)的文本行识别方法。本文在标准RNN的基础上采用长短时记忆(Long Short TermMemory,LSTM)模块替换神经网络中的隐层节点,并将标准的RNN扩展到双向网络以更好地捕捉文本行中的上下文信息,进一步结合序列化梯度方向直方图特征,在场景图像数字串识别中取得了较好的结果。