基于YOLOv3的自然场景字符检测方法研究

来源 :江西财经大学 | 被引量 : 0次 | 上传用户:long671
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
字符检测在生活的很多方面发挥着重要作用,例如身份验证、翻译和车辆牌照识别等。自然场景图像具有多样性,在字体的大小、字体的颜色以及背景上的巨大差异,使得场景字符检测成为一个具有挑战性的问题。早些年,字符检测技术靠手动提取图像中的字符特征,这种方式只能应用于文档识别等背景简单的场景,且人工定义和提取特征是一件耗时费力的工作,传统字符检测技术的发展遇到了瓶颈。随着深度学习技术发展,学者们开始尝试用卷积神经网络自动提取图像特征,字符检测技术有了新的突破方向。近年来,许多学者将字符检测看作是目标检测的一个特例,将图片中的字符看作目标,用各种深度学习目标检测算法检测自然场景图片中的字符。自然场景字符识别技术可分成两个独立的子问题,即定位和分类,定位解决的是字符的位置问题,分类解决的是字符的类别问题。基于深度学习的自然场景字符识别模型普遍存在两个问题,一个是如何快速定位字符区域,另一个是如何提高检测精度。为了解决这两个问题,本文提出了一种新的自然场景字符检测模型。本文的主要创新点如下。(1)提出了一种新的自然场景字符检测模型。考虑到自然场景中的字符相对于其它目标而言,字符目标占图像的整体面积普遍较小。因此论文对YOLOv3网络进行了改进,设计了一种新的字符检测网络(Tiny YOLO,简称TYOLO),用来检测小目标。该网络既可以保证不降低检测速度的前提下,又能做到提高字符的检测精度。另外,以往的目标检测网络模型,只是简单的手动设置几种类型的锚框,手动设置的锚框不一定正好符合目标尺寸。相比较而言,本文用聚类算法统计了数据集中字符本身的几何特性,并根据统计结果自动选择锚框,能够更准确地定位字符位置。在公开的数据集上的实验结果表明,本文提出的模型优于现有的字符检测模型。(2)提出了一种新的自然场景字符检测损失函数。一般来说,自然场景字符图像中的字符个数较少,在提取锚框阶段,相对应的有字符的锚框个数也会较少,这就导致了正负样本不均衡问题。为了解决这个问题,我们提出一个新的损失函数,该损失函数可以自适应地降低负样本在训练中所占的权重。另外,本研究不再沿用传统的交并比损失函数来计算定位损失,而是提出了一种新的定位损失函数。该损失函数充分考虑到了预测框和真实框不相交的情况,有利于提高模型的定位精度。本研究还从如何增加训练数据的多样性角度出发,提出了一个新的数据增强方法,创建多类型的样本,增强模型的泛化能力。(3)提出了一种新的后处理方法。在字符检测的过程当中,一些特殊的字符容易被预测成多个目标。例如m字符,其左半部分容易被检测为n,导致整个算法的检测精度不高。本研究提出的后处理方法考虑了上述情况,解决了单目标被预测为多目标的问题。
其他文献
以研华经典工控机IPC-610系列为代表的工业计算机广泛应用于智能制造、智能交通、环保、电力、军工、航天等领域。工业级的坚固机箱、专业的防尘散热设计、高规格的防震指标
目的探讨2型糖尿病(type 2 diabetes,T2D)患者的体成分和骨密度(bone mineral density,BMD)随年龄的变化。方法入选1534例T2D住院患者,男860例,女674例,年龄2085岁。所有患者按性别各自分为4个年龄组:≤54岁,5564岁,6574岁,≥75岁,采用双能X线骨密度仪(Dual-energy X-ray absorptiometry,DEXA)测定
当一个人静静立在窗前,望着窗外的繁星,倾听着它们的喃喃细语,感觉微风的温柔深情———入神时,你会不会对着那个感觉属于自己的内心世界微笑一下芽专注地。
手写字符识别是指将图片中所展示的图片文字转换为计算机可编辑的文本文字。运用计算机技术实现对手写字符的识别对于保存和利用文字信息具有重要的意义。由于试卷中字符类别的多样性、手写汉字字符结构的复杂性、考生字体的不一致性以及教育问题的严谨性,面向教育领域的手写字符识别具有更高的识别准确率要求。目前,基于深度学习的字符识别技术取得了不错的发展,但针对于教育领域的手写字符研究还处于起步阶段。本文旨在借助于深
徘徊在生与死之间,踌躇于明与暗之间,有人选择生,也有人选择死;有人选择明,也有人选择暗……真正源于人类内心深处的一缕精神血脉,却是选择永恒。流星的永恒源于用生命划亮的
大众传媒在环境传播活动中扮演着不可或缺的角色。近年来,在“环境”这一公共领域上,无论是传播者还是传播媒介都愈发的多样化与多元化。在参与环境传播的个人与群体中,市民群体、环境团体以及企业也加入了进来。与此同时传播媒介也日渐丰富,从早期的报刊、电视、广播等传统媒体,到如今书籍、影视、漫画甚至是游戏都成为了进行环境传播的载体。这其中,影视中的动画电影,在环境传播中所扮演的角色也不可小觑。而在有关于环境传
对骨损伤尤其是轻微骨裂的现场检测往往依赖于经验,缺乏可靠的现场测试技术。针对这一问题,对基于超声导波的骨损伤现场诊断应用技术进行了基础研究。分析了管状结构中的导波传
京津冀地区冷涡背景下飑线过程多发、强对流天气预报难,对此本文利用常规和非常规资料对近十年冷涡背景下京津冀地区的36条飑线进行统计分析,并对一次冷涡减弱阶段的飑线进行个例分析,所得结果有利于增强对此类飑线过程的认识,提高冷涡背景下强对流天气的预报能力,研究发现:(1)冷涡背景下京津冀地区的飑线主要发生在夏季六、七月,下午到傍晚生成,晚上发展成熟,深夜结束,生命史3到4小时居多,存在长生命史过程,飑线
本文题目为“寻衅滋事罪认定问题研究”,文章针对这些年来一直争议极大的“口袋罪”——寻衅滋事罪展开研究。本着逐步废除的方向,坚持客观主义认定罪名的立场,提出暂时保留