自然场景下的文本检测算法研究

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:leki55
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景下的图像文本区域蕴含着大量具有使用价值的信息,为场景文本分析提供了一定的基础。而且自然场景下的文本检测算法也是众多计算机视觉领域的应用基础。比如获取车牌信息、交通标志信息等。本文将针对自然场景下水平方向上和任意多方向上的区域进行文本检测算法研究。完成的主要工作如下:1.自然场景下的文本检测相关算法。首先是介绍了图像的相关预处理,包括图像的预处理和图像的目标显著性。然后详细的阐述了文本候选区域特征提取算法,其中包括笔画宽度变换和最稳定极值区域。最后详细的介绍了深度神经网络的相关层以及每层的前向和反向传播算法。2.自然场景下水平方向上的文本检测。针对水平方向上的文本区域,本文提出一种基于垂直区域回归网络的方法,若直接采用Faster-Rcnn框架算法中的候选区域网络(Region Proposcal Network RPN)方法对文本进行检测会有一定的限制,一方面,由于文本区域具有可变长度、背景复杂、多样化等因素,网络必须设计更大的感受野;另一方面,在训练阶段正样本的选择不能以传统物体检测方式测量,需要在训练阶段基于真值框(ground-truth)与候选框(Anchor)在垂直方向上交集与并集之比(Intersection-overUnion,IOU)大于某个阈值的情况下选择正样本,且在垂直方向上对正样本进行回归。最后由多个相邻的Anchors组合成文本区域。该方法可以使得更多的小候选框来覆盖文本区域,从而提高文本检测的召回率,且有效的解决了具有可变长度的文本区域。实验结果表明在ICDAR2011、ICDAR2013水平方向数据集上召回率分别达到0.815和0.826的效果。3.自然场景下任意方向上的文本检测。针对任意方向上的文本区域,在Fasterrcnn基础之上,本文提出了一种基于多角度方向上的文本区域进行训练算法。主要改进有两点:第一,改进RPN框架用于生成不同方向及比例尺寸的文本候选框;第二,在Faster-rcnn训练的第二阶段,采用仿射变换算法改进原始的ROI(region of interest)层的映射方式,提出A-ROIPooling层算法,该算法有利于处理各种多方向的文本区域。实验结果表明,算法具有一定的可行性及有效性,在MSRA-TD500数据集上召回率和F1得分分别能达到0.868和0.781。
其他文献
舞蹈作为一种人体语言,是通过人体动作过程来表现人类情感的艺术,反映人们的思想、情感以及社会生活。少儿舞蹈艺术是舞蹈艺术中的一种。它运用少儿音乐、歌曲和少儿特有的舞
人力资源管理是一个全员参与的过程。本文从人力资源部门的角度出发,借用市场营销4Ps基本组合的思想,解析如何更好地整合人力资源管理的各项职能,使企业的各项人力资源管理政
随着我国经济的快速发展,人民的日益生活需求也在不断增长。在当前阶段,地质生产的勘探手段的应用主要是为矿床的工作勘探程度进行有效的提升,明确其使用的边界条件,这是非常
本文构建了多主体参与环境治理的动态一般均衡模型,进行了政府环境规制下的企业内生治理动机研究与公众参与外部性的分析,模拟结果显示,企业内生治理动机、社会福利等不同目
构建辅导员胜任力模型是推进高校辅导员队伍建设的有效方法,也是辅导员工作绩效考评体系建设的重要依据。而要构建一个有效、可行、客观、全面的辅导员胜任力模型,需要进行科
根据脉冲式半导体激光器对功率、脉宽、上升沿的要求,同时考虑电脉冲的注入便于测试激光器的各种性能,提出了一种以金属氧化物半导体场效应晶体(MOSFET)为开关器件,以雪崩晶
对我国近几年关于农地制度中农地产权、农地经营主体问题、农地流转制度的理论探讨进行了综述。
<正>带着国企基因投入激烈的市场竞争,是广东石油的独特之处。2018年10月14日,央行行长易纲在2018年G30国际银行业研讨会上发言时表示,中国将考虑以"竞争中性"原则对待国有企
天然气水合物因资源潜力巨大而倍受重视。目前,世界上直接或间接发现100处以上的天然气水合物赋存区实例与我国2007年5月在南海神狐区域发现的天然气水合物实物,证明海洋天然
在英国文学中的确存在着所谓的“哥特式小说传统”,而且它对后来的文学发展产生了深远的影响。笔者认为,这也许是我们揭开《呼啸山庄》的创作之谜的一把金钥匙。以此为切入点