联合边界框校准的场景文本检测方法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:zzs0901
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于深度学习,目前性能较好的场景文本检测方法通常都会借鉴通用目标检测的思路。然而将场景文本检测看作是通用目标检测的特例时,它也有着自身的特点和难点:一是文本的宽高比变化较大,而在通用目标检测中,目标的宽高比一般在3以内;二是通用目标检测中的边界框是水平矩形,而文本是有方向的,其边界框需要用旋转矩形或四边形来表示。鉴于以上情况,场景文本检测至今仍是一项极具挑战性的任务。同样基于深度学习,本文提出一种联合边界框校准的场景文本检测方法。该方法以基于位置回归的一阶段通用目标检测框架为基础,其设计思路主要着眼于以下三个方面:首先,基于锚框机制的场景文本检测方法通常会设计较多锚框以覆盖文本不同的方向、尺度和宽高比。然而随着锚框增多,即采样密度增大,负样本所占比例也会相应升高,继而导致训练时正负样本类别失衡愈发严重,进而影响到模型的训练效果。针对于此,本文方法在设计锚框时剥离其方向特征但保留其尺度和宽高比特征,当覆盖相同的尺度和宽高比范围时,锚框的设计数量可相对减少,则负样本所占比例也相应降低,从而可缓解采样密集时正负样本类别失衡所带来的影响。其次,考虑到场景中位于同一区域的文本往往具有一致的方向性,所以本文方法假定同一网格中的所有锚框都具有相近的旋转角度偏移量(相对x轴),即同一网格中的所有锚框可共享旋转角度偏移量。并且相较于直接回归旋转角度偏移量,本文方法会以一种不同的形式实现,即通过独立的子网预测均匀分割的角度区间概率值,选取概率值最大的角度区间量化值作为共享旋转角度偏移量。最后,量化的旋转角度偏移量势必带来一定的角度偏差,如果边界框不能准确且紧致地框住文本,必然会影响到后续文本识别的准确率。针对于此,本文方法提出一种边界框校准算法,作为本文模型后处理层的最后一个步骤。该算法利用MSER获取字符边缘信息,通过基于规则的逻辑判断,对边界框进行收缩或膨胀操作,从而达到边界框校准目的。本文方法分别在ICDAR 2013和ICDAR 2015两个数据集上进行实验,并通过召回率、精确率和F分数三个常用指标进行评价。实验结果表明,本文方法取得了与其它现有方法可比较的检测结果,并且所提出的边界框校准算法也效果良好。
其他文献
二肽基肽酶Ⅲ(Dipeptidyl peptidase Ⅲ,DPPⅢ)是一种广泛存在于哺乳动物、植物、真菌和细菌中的Zn2+依赖型外切肽酶,能够选择性的从多肽链的N-末端切割二肽残基。来源于真核
电子限滑差速器在车辆操作稳定性和行驶高效性等方面有很大的优势,越来越广泛的应用在各个车型上。而高速开关阀作为电子限滑差速器的核心部件,其响应快速性及压力流量的精确
本文从两方面来研究驻定KdV系统.一方面是给出三种不同坐标下驻定KdV方程族的量子积分及其r-矩阵的量子化形式;另一方面将Darboux变换限定在驻定系统和Lie-Poisson结构系统的
析氧反应(Oxygen Evolution Reaction,OER)作为电解水过程中重要的半反应,其催化剂的研究对降低电解水反应能耗、实现规模化产氢有重要意义。过渡金属磷化物是一类有发展潜力的非贵金属基OER催化剂,但其OER催化活性与贵金属基催化剂相比仍有一定差距。金属有机框架(Metal-Organic Frameworks,MOFs)材料具有高孔隙率、丰富的金属活性位点和多样的有机配体选择
SBS改性沥青广泛地使用于路面建设,尤其是高等级路面。然而,和普通沥青一样,老化对SBS改性沥青依然是一个非常严重的问题亟待得到解决。热致变色材料具有能够在一定的温度下改变自己颜色的功能,从而做到对太阳光的反射吸收的调节。已经研究得出将热致变色材料加入到沥青里面不仅能够调节路面的表面温度,普通沥青的抗老化的能力也得到提升,并且目前高等级路面的用的材料基本都是SBS改性沥青。因此研究热致变色材料对S
诗歌选本是诗歌传播和承传的重要环节,也是其经典化的重要途径,在诗歌史上有着非常重要的地位。一本好的诗歌选本蕴含着对某种诗歌现象、诗歌创作的总结与反思,对一种诗潮流的彰显以及对诗坛生态的观照。《中国新诗年鉴》(后简称《年鉴》自1998年发刊以来,将近20年锲而不舍的坚守在诗歌第一现场,记录推动诗坛的发展和演化,成为诗坛演化的催化剂,为我们研究当下诗坛生态提供了一份鲜活的诗歌史资料,因此以《年鉴》研究
随着计算机技术的不断发展,人体动作识别技术已经成为计算机视觉领域中不可或缺的研究内容。它将会在视频监控、智能监护、视频内容分析以及其他智能化领域中发挥巨大的作用。本文工作如下:(1)针对因透明性、噪声、多光源以及遮挡性等造成帧间光流法会有许多不切实际的光流点造成识别率低的问题,本文提出一种基于三维时空兴趣点与光流法检测结合的识别方法。在进行三维时空兴趣点检测时,采用高斯滤波器对空间域做滤波处理,同
技术创新是经济增长的燃料,也是不断改善人民生活水平的动力源泉,这一点日益成为全社会的共识。自改革开放以来,我国经过四十多年的发展,经济增速逐渐放缓,目前中国经济已进入了发展新常态。在新的经济形势下,技术进步在推动产业结构优化升级的过程中发挥着重要的作用。因此,怎样激励企业从事创新活动,是我国现阶段所面临的实际问题。近年来,我国出台了很多政策,投入了大量的资源来支持企业创新活动,政策实施效果究竟如何
维生素D3是人体必须的一种脂溶性维生素,与人体健康密切相关。然而,高效合成维生素D3是有机化工的难点之一,关键在于它的光化学反应过程效率低下。目前,微流控技术依赖其反应
基于光纤产生的超连续光谱(SC)激光源具有宽频谱、高亮度、光斑小、平均功率高、散热性好、光束质量高、结构紧凑、易于维护及成本低多项优势。基于掺铒非线性光纤产生超连续光谱的方法可以同时实现脉冲光谱展宽和能量提升。本论文设计了两种正常色散掺铒光纤结构,并进一步对基于掺铒光纤生成超连续光谱的过程进行了数值分析,具体工作如下:首先,设计了两种掺铒单模跃折射率光纤。第一种光纤的纤芯由CS_2填充的空芯和掺杂