基于深度特征的多方向场景文字检测

来源 :厦门大学 | 被引量 : 0次 | 上传用户:oldfan48
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字是高层视觉元素,包含着丰富的语义信息,通过文字检测或者识别等视觉任务挖掘图像中的文字信息对于以图搜图、自动搜索、自动翻译、人机交互等具有重大意义。针对复杂场景的文字检测进行了大量的研究,相关方法主要分为两大类,一类是基于传统方法的文字检测方法,一类是基于深度学习的文字检测方法。然而,现有的方法多针对于水平方向的文字检测,而任意方向文字检测的研究尚处于初级阶段。此外,现有的方法的精度和速度也不尽人意,无法适应复杂场景下文字的多样变化,例如模糊、低分辨率、遮挡等。本文针对这些问题展开研究,研究内容和主要贡献包括以下几个方面。第一,设计了基于变形卷积和特征金字塔卷积相结合的深度神经网络架构用于场景文字检测。本文借鉴特征金字塔网络的思想,对底层的特征映射图用3×3卷积进行上采样,再用1×1卷积改变通道数,然后与上层的特征映射图融合。这样使得框架的表达能力更加强大,实验结果表明了其优越性。普通的深度检测框架所用的卷积层对应的感受野一般都是水平矩形框,形状单一。对于复杂场景的文字而言,它的形状是一个不固定的四边形,本文于是在SegLink网络当中加入变形卷积层,从而使得其感受野可以任意变化,增强模型的容纳能力。实验结果使得改进后的SegLink又得到一次提升。另外,本文借鉴Mask-RCNN的思想,在SegLink框架中加入了掩模信息,将掩模信息引入网络而使之参与训练,使得网络又多了一个更为精细的监督,实验结果也证实了它的优越性。第二,设计了基于残差网络和焦点损失相结合的深度神经网络架构用于场景文字检测。本文对一个快速且精确的文本检测框架(Efficient and Accurate Scene Text Detector,EAST)的基础网络PVANet进行改进,采用ResNet-50,并结合精炼网络等结构,以及融合各层的特征来增加网络的表达能力。此外,本文将EAST本来的平衡损失改为焦点损失。EAST的标注信息是像素级别的,正负样本的比例严重失平衡。EAST原文对正负样本添加了各自的权重系数,以此来平衡其比例。但是,这样做却没有区分简单样本和困难样本,可能出现梯度被简单样本占据的情况,所以对于困难样本增加其权重,削减简单样本对损失的贡献率,这样使得训练更加稳定。最后,本文对网络输出层的特征映射图进行扩大,以获得更好的结果。
其他文献
本文以综合凯蒂三个兄弟的叙述为新角度,以浓缩凯蒂的嬗变形象为新线索,揭示了凯蒂的形象从姐姐到母亲、从妹妹到情人、从天使到妓女嬗变的三个阶段和全过程,合成了凯蒂立体的、
从拐芹AngelicapolymorphaMaxim根及根茎的酯溶性部位分得两个化合物I和II。经光谱解析(UV,IR,MS,1H-NMR,13CNMR,1H-1HCOSY,13C-1HCOSY和DEPT等),确定1为一个新成分,命名为拐芹色原酮A(angeliticinA),II为saxalin。 Two compounds I and II were separated from the ester-soluble sit
随着我国科学技术不断发展,多媒体技术已渗透到各个领域,尤其在教育行业,多媒体课件已被广泛应用。在多媒体课件中图片是不能缺少的元素,图片信息可以更直观地让学生获得知识。在
本文客观剖析了高中语文课堂教学中对学生思维培养的现状,并针对问题提出了应对性解决策略,以期为强化教育效能,提升语文教学质量贡献力量。 This paper objectively analyz
自2003年非典型肺炎爆发以来,生物安全和生物安全实验室日益受到重视,生物安全实验室在我国发展很快。本文主要介绍了生物安全的涵义及生物安全实验室的分级,GB 19489—2004
胶东调水工程是山东省"T"字形调水大动脉的重要组成部分,具有跨流域、线路长、水工建筑物复杂、多明渠输水等突出特点。近年来,工程引调水量逐年增大,供水安全一直是工程管理
Hancock于1984年报道了用硫酸镍铵加强的DAB进行HRP呈色反应(DAB—硫酸镍铵法),将其应用于免疫酶双标记中。我们将该方法移植于HRP逆行标记呈色反应结合免疫酶双标记技术中。
柴油机尾气中NO_x的排放会严重污染大气环境,随着排放法规的加严,尿素SCR技术已经成为控制柴油机尾气NO_x排放最有效的方式之一。但在实际工程应用中,尿素水溶液雾化质量差会造成NH_3分布不均匀和沉积物的生成,严重影响SCR系统的性能。改善尿素水溶液的雾化质量,提高NO_x转化效率一直是研究人员的关注热点。本文基于文献中的试验数据建立并验证了SCR催化反应动力学模型和三维流动模型,并实现了二者的
目的回顾性评价接受1,3-二(2-氯乙烷)-1-亚硝基脲化疗栓塞(CE)或免疫栓塞(IE)治疗肝转移灶的葡萄膜黑色素瘤病人生存时间的预后影响因素。材料与方法本临床研究获得了学术委
随着光伏电站数量持续上涨,电站的安全问题得到了广泛的关注。然而,光伏电站中的电缆故障给发电带来了严重的危害和损失,因此本文以光伏电站中的电缆故障为对象,研究能够检测