自然场景图像下文本检测的研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:fh1130
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景图像中的文本可以简洁地表达丰富的信息,帮助人们更好地理解场景,因此对自然场景图像进行文本检测是一项非常有价值的研究课题。本文以ICDAR-2013的聚焦场景数据集以及ICDAR-2015的偶然场景数据集为研究对象,分别对基于最大稳定极值区域的文本检测算法和基于深度学习的文本检测算法进行了研究,论文的主要工作如下:首先,针对基于最大稳定极值区域的文本检测算法中,支持向量机结合方向梯度直方图特征对候选字符区域分类精度不够的问题,提出基于最大稳定极值区域与残差网络结合的文本检测算法,使用残差网络ResNet-18对候选字符区域进行分类,取得了更好的字符分类精度和文本检测结果。其次,针对文本区域是任意四边形描述,使得通用目标检测网络single shot d etector的学习方法不再适合文本检测任务的问题,使用顶点回归的学习方法直接预测默认框四个顶点坐标的绝对差量,并提出基于曼哈顿距离的区域空间相似度度量方法将网络训练迭代一次消耗在正负默认框判断上的时间由1分30秒减少到0.1秒,大幅提高了网络训练效率和文本检测的精度。然后,针对基于顶点回归与曼哈顿距离度量的文本检测网络对竖向文本以及大角度朝向的文本区域检测效果不佳的问题,提出了基于多核旋转模块的文本检测网络。利用旋转默认框去检测任意朝向文本,并使用随机旋转和多核卷积模块缓解了自然场景下横向文本区域与竖向文本区域数量不均衡导致的检测精度下降的问题,同时,使用focal loss替换在线难例挖掘策略,缓解了正负样本不均衡的问题,提高了模型的精度。最后,针对基于多核旋转模块的文本检测网络存在过拟合的问题,提出基于多任务学习的文本检测网络。基于多核旋转模块的文本检测网络与全卷积神经网络共同监督同一个主干网络VGGNet-16,使得网络模型同时学习文本的位置信息和语义分割信息,从而达到缓解过拟合和提高精度的目的。同时,使用多任务输出的融合算法,将全卷积神经网络语义分割的结果进行结构化信息的提取,然后将其和基于多核旋转模块的文本检测网络的输出做融合,进一步提高精度。实验结果表明基于多任务学习的文本检测网络在ICDAR-2015数据集的F1分数达到了0.78,超过Se gLink算法3个百分点,超过以VGGNet-16为主干网络的EAST算法2个百分点,超过SSTD算法1个百分点。
其他文献
广播现场报道,是广播电台播报新闻的主要形式,它作为广播中的轻骑兵越来越多地被运用于新闻报道当中,广播现场报道除了具有交流信息、引导舆论的功能外,还因其逼真直观的现场
研究了3种常见木一植物芒果、银桦、台湾相思树,以及1种盆栽植物紫花鸭跖草,对大气中SO2暴露的生理反应,对供试植物叶进行了可溶性糖和过氧化物酶活性的测定。结果表明,当大气中SO2浓度较
随着2017年新发审委员会的上任,企业IPO的审核要求越发严格,所以拟IPO企业需要采取措施来规范需要审核的内容,以达到成功上市的目的。从2010至2019年IPO被否企业的否决原因来看,部分拟IPO企业上市失败的主要原因中包含了税务因素,可知证监会非常关注企业的税务问题,甚至针对税务问题有一票否决权,所以决定上市的企业应该做好税务规划,完善自身情况。然而,依然有许多企业对税务风险管理不够重视,导
随着雅鲁藏布江缝合带的碰撞闭合,青藏高原进入了超碰撞阶段,伴随着西瓦里克A型俯冲带的形成和发展,导致藏南地壳的大幅度增厚和整个青藏高原的强烈隆升,而增厚隆升的主要方式就
一、高校对双语教学认识不足进入21世纪。国际竞争日益激烈,对专业人才素质的要求不断提高。随着我国对外开放步伐的进一步加大以及对外交流的日益频繁.我国迫切需要大量的既精
软件缺陷是软件开发过程中不可避免的“副产品”,不仅影响着软件的质量还可能导致软件的开发费用超支和开发进度失控,甚至会导致灾难性的结果。软件中存在的缺陷并非靠简单地
本文在简要介绍我国财政部修订利润表格式内容的基础上,分别从受托责任观和决策有用观分析说明了如何正确把握新修订的主要内容的看法,分析考察了新修订利润表格式内容可能产
“包死价”合同方式的投标报价风险及决策分析王应雄(同济大学建设监理研究所)在招投标过程中。投标报价往往是业主确定中标单位的重采依据.而一些业主在招标文件中声明:最后以中