论文部分内容阅读
自然场景文本检测和识别技术是计算机视觉领域中的重要的研究课题,随着人工智能技术以及智能硬件设备的普及,自然场景文本检测和识别技术受到人们的广泛关注。它在汽车场景文字识别、卡证识别、票据识别、教育场景文字识别等方面具有广泛的应用背景。但由于场景文本图像背景的复杂性和文本本身的多变性,要准确地检测和识别出文本还面临着诸多困难。本文针对自然场景文本图像检测与识别算法进行了研究,具体内容如下:(1)介绍了自然场景文本检测与识别算法的研究现状,分析了场景文本检测与识别技术面临的挑战,并介绍了目前常用的算法。(2)针对CTPN网络只能检测水平和稍微倾斜方向文本的问题,提出了改进的CTPN多方向文本检测算法,并将该算法应用于多方向文本检测与识别系统中。通过对待检测图像进行多角度旋转,使用CTPN网络检测出旋转后图像中文本的初始位置,再对候选文本框进行融合,找出本文的最佳文本框。在对文本框进行融合时,使用文本框融合策略,生成旋转的矩形框来标记文本区域。将该算法在IC15数据集上进行了测试,验证了改进的CTPN多方向文本检测算法的合理性。解决了CTPN网络只能检测近似水平方向文本的问题。(3)提出了改进的CRNN文本识别算法。以CRNN为基础模型,在该模型的基础上添加了对抗网络分支,同时将传统的文本特征与深度特征融合,使得能够识别有遮挡的文本。将提出的文本识别算法采用mjsynth数据集进行训练,并在IC13和SVT数据集上进行了测试。相比于CRNN算法,在以上两个数据集上的准确率都有所提高,特别在SVT数据集上,没有约束字典情况下准确率提高了0.065。