论文部分内容阅读
伴随着海量图片的信息时代的到来,图片信息充斥在生活的方方面面。传统的图像识别是基于表层的图像特征。一般的提取方式是:图像分割、图像特征提取、分类器识别这三步骤。而由于文本信息的特殊性,没有固定的形状和合理的目标分界线,传统的图像识别方式要识别自然场景下的文本信息是相对比较困难的。深度学习技术是如今高速发展的技术。深度学习技术不依赖人工去设计图像的表层特征,而是以数据为驱动,自发式的从数据中学习到图像的特征。基于数据的学习方法带来的好处是不在需要人工干预设定特征。网络自学习到的特征也越抽象,越合理。首先,本文实现一种基于CTPN的文本目标检测模型,该方法通过对小窗口的文本分数学习,基于双向LSTM结构学习序列特征,最后将文本分数较高的窗口连接起来作为文本区域。在自然场景下,就算文本没有很明显的边界区域,也能很好的检测文本的位置。算法在Google提供的Street View Text数据集共300张街道图像进行测试,实验结果表明本文算法的识别准确率可以达到80.2%。能很好地完成在自然场景下的文本检测功能。然后,本文实现一种基于CRNN的文本目标识别模型,兼顾了卷积网络对特征提取和循环网络对时序输入的优点。该模型包含特征提取和文本识别两个阶段:对文本图像进行特征序列提取,通过双向LSTM获得图像的特征序列;根据图像的特征序列预测文本序列结果。在Street View Text数据集进行测试,实验结果表明,基于字母加数字的整体文本识别率能达到80.8%。最后,本文实现了基于深度学习的图像文本识别系统,包含四个模块:文本检测模块、暗通道去雾模块、水平归一化模块、文本识别模块。文本检测模块和文本识别模块分别依赖于相应模型的实现。暗通道去雾模块能去除图像中的雾属性,水平归一化模块能保证文本信息处于水平位置。提高识别的准确性,降低噪声的影响。综合多模块构建成一个图像文本识别系统。