论文部分内容阅读
自然场景图像中的文本可以简洁地表达丰富的信息,帮助人们更好地理解场景,因此对自然场景图像进行文本检测是一项非常有价值的研究课题。本文以ICDAR-2013的聚焦场景数据集以及ICDAR-2015的偶然场景数据集为研究对象,分别对基于最大稳定极值区域的文本检测算法和基于深度学习的文本检测算法进行了研究,论文的主要工作如下:首先,针对基于最大稳定极值区域的文本检测算法中,支持向量机结合方向梯度直方图特征对候选字符区域分类精度不够的问题,提出基于最大稳定极值区域与残差网络结合的文本检测算法,使用残差网络ResNet-18对候选字符区域进行分类,取得了更好的字符分类精度和文本检测结果。其次,针对文本区域是任意四边形描述,使得通用目标检测网络single shot d etector的学习方法不再适合文本检测任务的问题,使用顶点回归的学习方法直接预测默认框四个顶点坐标的绝对差量,并提出基于曼哈顿距离的区域空间相似度度量方法将网络训练迭代一次消耗在正负默认框判断上的时间由1分30秒减少到0.1秒,大幅提高了网络训练效率和文本检测的精度。然后,针对基于顶点回归与曼哈顿距离度量的文本检测网络对竖向文本以及大角度朝向的文本区域检测效果不佳的问题,提出了基于多核旋转模块的文本检测网络。利用旋转默认框去检测任意朝向文本,并使用随机旋转和多核卷积模块缓解了自然场景下横向文本区域与竖向文本区域数量不均衡导致的检测精度下降的问题,同时,使用focal loss替换在线难例挖掘策略,缓解了正负样本不均衡的问题,提高了模型的精度。最后,针对基于多核旋转模块的文本检测网络存在过拟合的问题,提出基于多任务学习的文本检测网络。基于多核旋转模块的文本检测网络与全卷积神经网络共同监督同一个主干网络VGGNet-16,使得网络模型同时学习文本的位置信息和语义分割信息,从而达到缓解过拟合和提高精度的目的。同时,使用多任务输出的融合算法,将全卷积神经网络语义分割的结果进行结构化信息的提取,然后将其和基于多核旋转模块的文本检测网络的输出做融合,进一步提高精度。实验结果表明基于多任务学习的文本检测网络在ICDAR-2015数据集的F1分数达到了0.78,超过Se gLink算法3个百分点,超过以VGGNet-16为主干网络的EAST算法2个百分点,超过SSTD算法1个百分点。