论文部分内容阅读
文字,在我们的日常生活中无处不在,是人们之间交流、信息传递和互动的主要方式之一。近年来,自然场景光学字符识别(optical character recognition,OCR)技术,即把手写体或图像上的文本换为机器编码的文本已成为模式识别、人工智能和计算机视觉领域的热点研究方向,学术界和工业界对此都有很强烈的关注。作为一种通用技术,自然场景文字识别不需要定制特殊场景,并且可以识别任何场景图像中的文本,如广告牌、路标、车牌、文档照片、商品包装等。自然场景文字检测与识别技术已广泛应用于信息内容安全审计,票证识别,证件照片识别等方面,具有极其重要的研究和应用价值。本文论述了自然场景文字检测与识别技术的研究背景和意义,阐述了自然场景文字检测与识别技术的研究现状,重点介绍了场景文本检测与识别算法,并设计了一个端到端的可训练的文本定位深度学习网络,可以同时检测任意方向的文本行和识别文字,并在标准数据集上对场景文字检测与识别算法进行了验证。本文主要做了以下工作:1.本文设计了一个统一的端到端的深度学习网络,同时完成文字检测和识别的任务,该网络可以进行端到端的训练。与分别用两个网络完成这两个任务的方法相比,本方法通过卷积神经网络学习更多的通用特征,卷积神经网络在文本检测和文本识别之间共享,两个任务的监督是互补的。由于特征提取通常需要大部分时间,因此它将计算收缩为单个网络的时间。2.在场景文字检测方面,本文论述了已有的基于深度学习的算法EAST,并对算法存在的问题进行了分析和改进,解决了EAST因感受野的限制而无法检测长文本的问题,同时为了增加模型对更复杂情况的鲁棒性用Resnet50作为基础网络。3.在文字识别方面,本文使用卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN)作为编码器,连接的时序分类器(Connectionist Temporal Classification,CTC)作为解码器来做文字识别分支,为了使得输入序列大于输出序列这里CNN中的池化层的滤波核为2×1。4.使用仿射变换提取感兴趣区域(Region of Interest,Ro I),这是结合检测分支和识别分支的关键,仿射变换从共享特征图上提取检测分支检测到的任意方向的文本行对应的特征,送入识别分支进行文字识别。5.结合本文对场景文字的检测算法和识别算法的研究成果,基于Keras和Tensor Flow实现算法并在多个标准数据集上进行了测试和验证。实验表明,本文设计的场景文字检测和识别算法有较好的鲁棒性,算法能够实时处理自然场景图片,能够准确定位图片中文字的位置,并对文字进行检测和识别,算法准确率达到了最先进水平,具有较强的研究和应用价值。