论文部分内容阅读
文字作为自然场景中常见的信息承载形式,其中往往蕴含着丰富的语义特征信息,本文针对自然场景中的英文文字识别问题进行了研究。区别于传统OCR方法适用的文档图像等,自然场景下采集的文本图像往往存在着字体多变、排版不规律以及环境背景复杂等难点,为识别过程引入了诸多不定因素。如何让计算机能更精准无误地提取特征、识别文字一直是国内外诸多学者研究的热点问题。随着深度学习理论不断发展进步,其应用领域逐步扩展,在图像处理、预测分类等诸多方向上取得了不错的成效。本文以深度学习理论为基础,以自然场景下的英文文字识别为目标,以文字识别准确率及效率为标准,对场景下的英文文字的识别展开了研究。主要内容如下:(1)结合端到端的识别模型思想,在编码器-译码器框架下,设计了一套基于CNN-BiGRU-Attention的场景英文文字识别算法模型。从整体上将识别任务分解为编码以及译码两个流程,以此展开对各部分算法的研究与设计。(2)在编码环节中,在完成图像预处理的基础上,结合Jaderberg的卷积神经网络,给出了用于图像局部静态特征提取的卷积神经网络模型。为更进一步利用文字间上下文关联信息,引入双向循环神经网络以提取关联信息。同时,为进一步降低计算复杂度,采用门控循环单元作为其基本结构。在局部特征与关联特征提取工作的基础上,进而提出了上下文特征向量生成方式,从而实现了原始图像的特征编码。(3)在译码环节中,采取循环神经网络根据上下文特征向量进行解码,在这里引入了注意力机制以增强模型对上下文特征信息的应用,从而提升了整体正确率。结合本文研究数据的特点,对注意力机制进行了优化,提出了本文解码过程中所用的局部注意力机制,增强了局部关联特征的应用,并减少了整体计算量。在后处理阶段中,通过基于字典模型和基于n-gram语言模型的两种方法对集束搜索算法进行了优化,进一步提高了本文算法模型译码结果的准确程度。(4)在模型训练过程中引入指数衰减学习率、正则化以及滑动平均模型等方法,从效率以及识别准确率两个方面进一步优化本文的算法模型。在模型训练完成后,从多个方面测试了本文算法的效率、准确率以及泛用化能力。