论文部分内容阅读
随着深度卷积神经网络的兴起,自然场景中的文本检测得到了广泛关注。场景文本检测具有很大的应用价值,比如广告过滤,场景理解,文档分析以及机器人导航等等。但是,因为尺寸、长宽比和方向的巨大变化以及图像扭曲、极端的照明情况和遮挡问题,场景文本检测仍然面临着巨大的挑战。本文的主要工作和创新如下:
1.本文研究了基于语义分割的文本检测算法EAST,并提出了一种含有空洞卷积的场景文本检测算法AC-EAST。AC-EAST算法针对EAST模型中因为连续使用池化而导致特征图上下文信息缺失的问题,在特征提取网络中引入空洞卷积,使得网络能够在控制特征图尺寸的同时有效扩大感受野。另外,本文还在AC-EAST网络的顶层加入空洞空间金字塔池化结构,使得网络能够更好地提取多尺度特征。实验结果表明,本文提出的AC-EAST模型的文本检测性能明显优于现有的先进算法,在ICDAR 2015测试集上取得了0.826的F-score。
2.本文研究了基于目标检测的文本检测算法TextBoxes++,并提出了一种基于Inception结构输出层的文本检测算法ITPN。ITPN算法在TextBoxes++的基础上改进了先验框生成机制,加入了小尺度的方形先验框和长先验框。同时引入Inception输出层,对不同分类的先验框采用不同尺寸的卷积核进行卷积运算。实验结果表明本文提出的ITPN算法提升了对于小尺度文本和大长宽比文本行的检测精度,并且因为多种类先验框的设定使得模型具有很高的召回率。ITPN在ICDAR 2015测试集上的召回率达到了0.838,明显优于现有的先进算法。
3. 本文提出了一种将语义分割与目标检测相结合的场景文本检测算法BLSTD,该算法运用注意力机制和融合非极大值抑制算法将AC-EAST与ITPN相结合,使得AC-EAST主要检测常规尺度的文本,ITPN主要检测小尺寸和大长宽比的文本,让两个算法充分发挥各自的检测优势。实验结果表明,BLSTD算法兼具AC-EAST算法的高精确率和ITPN的高召回率,在MSRA-TD500数据集上召回率、精确率和F-score分别达到了0.748,0.862和0.801。相较于其他文本行检测算法,BLSTD的后处理仅包含一个非极大值抑制计算,大大缩短了检测时间,在检测速度上极具优势。本文还将BLSTD算法应用于实际的营业执照文本检测场景中,设计了一套完整的营业执照文本检测系统。测试结果表明,本文搭建的系统对于营业执照文本检测有很高的精度,且泛化性能良好,对证件、票据也具有良好的检测效果。
1.本文研究了基于语义分割的文本检测算法EAST,并提出了一种含有空洞卷积的场景文本检测算法AC-EAST。AC-EAST算法针对EAST模型中因为连续使用池化而导致特征图上下文信息缺失的问题,在特征提取网络中引入空洞卷积,使得网络能够在控制特征图尺寸的同时有效扩大感受野。另外,本文还在AC-EAST网络的顶层加入空洞空间金字塔池化结构,使得网络能够更好地提取多尺度特征。实验结果表明,本文提出的AC-EAST模型的文本检测性能明显优于现有的先进算法,在ICDAR 2015测试集上取得了0.826的F-score。
2.本文研究了基于目标检测的文本检测算法TextBoxes++,并提出了一种基于Inception结构输出层的文本检测算法ITPN。ITPN算法在TextBoxes++的基础上改进了先验框生成机制,加入了小尺度的方形先验框和长先验框。同时引入Inception输出层,对不同分类的先验框采用不同尺寸的卷积核进行卷积运算。实验结果表明本文提出的ITPN算法提升了对于小尺度文本和大长宽比文本行的检测精度,并且因为多种类先验框的设定使得模型具有很高的召回率。ITPN在ICDAR 2015测试集上的召回率达到了0.838,明显优于现有的先进算法。
3. 本文提出了一种将语义分割与目标检测相结合的场景文本检测算法BLSTD,该算法运用注意力机制和融合非极大值抑制算法将AC-EAST与ITPN相结合,使得AC-EAST主要检测常规尺度的文本,ITPN主要检测小尺寸和大长宽比的文本,让两个算法充分发挥各自的检测优势。实验结果表明,BLSTD算法兼具AC-EAST算法的高精确率和ITPN的高召回率,在MSRA-TD500数据集上召回率、精确率和F-score分别达到了0.748,0.862和0.801。相较于其他文本行检测算法,BLSTD的后处理仅包含一个非极大值抑制计算,大大缩短了检测时间,在检测速度上极具优势。本文还将BLSTD算法应用于实际的营业执照文本检测场景中,设计了一套完整的营业执照文本检测系统。测试结果表明,本文搭建的系统对于营业执照文本检测有很高的精度,且泛化性能良好,对证件、票据也具有良好的检测效果。