论文部分内容阅读
屏幕渲染文本图像上的文字识别,在自动化测试和在线词典等场景下有着极其广泛的应用。但是,由于屏幕渲染文本图像具有低分辨率、小字体和低对比度等特性,现有的文字识别方法在屏幕渲染文本图像上的中英文混合识别面临着极大的挑战。本文结合深度学习模型对屏幕渲染文本图像中的中英文混合识别问题展开相关研究。本文的工作主要包含以下两个方面:1)基于字符分割方法的屏幕渲染文本检测与识别针对屏幕渲染文本图像的特性,本文提出了一种基于HCCR-GoogLe Net的有分割文字识别方法。该方法首先使用OTSU二值化、膨胀、连通域检测、连通域融合和垂直投影法从屏幕渲染文本图像中提取出单个字符。然后使用字宽融合对误分割的字符进行校正。最后结合HCCR-GoogLeNet使用四个inception-V2模块设计了一个精简的GoogLe Net网络。在公开数据集CIFAR-10与ICDAR 2013和屏幕渲染文本图像数据集上的实验结果证明了该方法的性能和实用性。2)基于无分割端到端方法的屏幕渲染文本检测与识别在基于分割的识别方法中,会存在字符分割困难的问题。为了解决此问题,本文进一步提出了一种基于深度残差网络、循环神经网络和时间序列分类的无分割识别方法。该方法使用OTSU二值化、膨胀、连通域检测和连通域融合等方法从屏幕渲染文本图像中提取出文本行。为了使网络完成对不定长文本行的识别,该方法使用深度残差网络、循环神经网络和时间序列分类构造出了一个不定长文本行识别模型。在公开数据集CVL HDS和ORAND-CAR和屏幕渲染文本图像数据集上的实验结果证明了该方法的性能和实用性。本文结合深度学习模型,针对屏幕渲染文本图像的低分辨率、小字体和低对比度等特性,分别从有分割和无分割两个方向对屏幕渲染文本图像上的文字检测和识别进行了研究,实现了对传统方法的改进。提出的方法完善了屏幕渲染文本图像中的文字识别方法,并对自动化测试、在线词典和自然场景下的文字识别具有一定参考价值。