【摘 要】
:
随着深度学习在目标检测领域的日益深入以及计算机视觉和自然语言处理技术的日益结合,对图片中的文本信息进行提取成为了后续处理的前提。尽管目标检测领域越来越多兼具精度和速度的优秀模型相继被提出,但是这些模型对于自然场景下的文本检测往往表现欠佳,文本检测有别于一般的目标检测的地方主要在于文本自身的特点,自然场景下文本的表现形式丰富多样,比如文本字符的长宽比差异较大,小文本目标难以识别,文本区域的并排和粘连
论文部分内容阅读
随着深度学习在目标检测领域的日益深入以及计算机视觉和自然语言处理技术的日益结合,对图片中的文本信息进行提取成为了后续处理的前提。尽管目标检测领域越来越多兼具精度和速度的优秀模型相继被提出,但是这些模型对于自然场景下的文本检测往往表现欠佳,文本检测有别于一般的目标检测的地方主要在于文本自身的特点,自然场景下文本的表现形式丰富多样,比如文本字符的长宽比差异较大,小文本目标难以识别,文本区域的并排和粘连等,这些特点给文本检测带来了较大的挑战。针对文本字符长宽比差异较大导致目标检测不完整,漏检率高的问题,本文提出了基于FPN架构改进的目标检测算法。首先使用SE-Resnet作为主干网络,在强化网络的特征提取能力同时加入空洞卷积提升特征层的感受野,SE-Resnet的squeeze和excitation操作可以使得网络在训练中学习到不同通道的权重。通过只融合相邻尺度的特征,使得到的特征信息更丰富,然后将不同尺度的特征图通过位置增强模块学习到特征图不同位置的权重,最后通过设置不同比例的anchor,确保映射回原始图像得到的检测框能更匹配到真实文本区域。由于特征融合了高层语义与浅层位置信息,网络有效的提升了文本的检测能力,实验结果表明这一算法框架达到了较高的精度。针对文本目标太小导致网络无法检出的漏检问题,本文提出了基于区域卷积增强的文本检测算法。网络架构借鉴U-shape的思想,通过提出的区域卷积模块将不同尺度特征映射成真实的文本形状,这些特征最后经过上采样后与前一层结合作为解码器。输出包含score map和预测输出区域,该区域以四边形形式进行输出。在得到文本真实标签的最小外接矩形框之后,模型执行时会对特征图中每个像素预测其到矩形框四个顶点的坐标偏移。实验结果表明基于语义分割的算法可以有效预测小目标文本,减小漏检率。针对文本区域出现粘连排列导致漏检的问题,本文提出了关系增强注意力监督的文本检测算法,算法对于高层次的特征使用不同比例的anchor进行回归,最浅层的特征图可以给出像素级的预测和热图输出,利用关系增强注意力模块对该层特征进行监督,最后将高层次特征与浅层次特征分别得到的预测框使用非极大值抑制得到最终的输出。高层次的特征可以给出较大文本的精确预测,而浅层特征则针对较小文本给出精准预测,所以算法最终将高层次特征和浅层次特征一起融合,将二者的优势进行结合,实验结果表明,本算法比单独使用分割和检测的算法效果有较大提升。为了验证本文提出的算法的有效性,本文采用了多组公开的文本数组,包括ICDAR2015,ICDAR2017 RCTW和MSRA-TD500。通过实验对比,本文提出的新的模块能有效解决上述文本检测中存在的问题,对比当前较先进的文本检测算法也具备一定的优势。
其他文献
目的分析了解2004年以来深圳市儿童感染性眼内炎临床特点及变化情况。方法回顾性分析2004年1月1日至2007年12月30日深圳市眼科医院眼外伤-玻璃体视网膜病区收治的儿童病例(12例12只眼)。了解临床发病特点、手术方法、感染源与抗生素敏感度等变化情况。结果本组患儿年龄9个月~14岁,平均年龄6.79岁。治疗后眼内炎痊愈。随访
人眼虹膜具有唯一性、持久性与高辨别性的特点,虹膜验证是基于该生物特征的身份验证方法,适合各种安全场合的身份验证场景。然而虹膜图像在真实复杂环境中受到反光、遮挡、虹膜形变等因素的干扰,给虹膜的特征提取带来了困难,降低了虹膜验证的鲁棒性和准确性。因此本文提出了一种基于深度度量学习的虹膜验证方法,主要工作如下:(1)提出一种基于虹膜外接矩形图的虹膜特征提取策略,并以此提出基于残差神经网络的虹膜验证方法,
适应性免疫功能失调是导致慢性阻塞性肺疾病(COPD)持续进展的重要因素,其中CD4+辅助性T细胞与调节性T细胞(Treg)是该过程的两个关键参与者。诱导性共刺激分子(ICOS)在促炎的CD4+辅助T细胞和抗炎的CD4+Tregs上均有表达,ICOS信号在不同疾病中的整体作用要具体情况具体分析。在本项研究中,我们发现ICOS的表达水平在COPD病人外周血CD4+T细胞和CD4+Tregs中均升高,且
半球谐振陀螺作为航空航天等高端装备中惯导系统的核心器件,对战术武器的飞行精度和姿态稳定性起着决定性作用。在其制造过程中半球谐振子金属化镀膜至关重要,但薄膜应力对谐振子Q值影响较大,直接决定着半球谐振陀螺的最终性能。本文从半球谐振陀螺的发展、工作原理出发,结合镀膜工艺的介绍与比较、残余应力的成因与计算,围绕薄膜沉积过程中工艺参数对薄膜应力的影响展开研究,介绍了Stoney公式法与XRD法,最终选定X
热交换过程和换热装置是工业生产过程中广泛应用的流程和设备,其中金属传热面往往会遭受严重的腐蚀。金属腐蚀一直是换热器运行中的巨大挑战。传热系统最重要的特征是存在热边界层,传热界面的热边界层内存在显著温差即热场,将导致热量穿越金属/流体介质界面传导。热场的存在可能影响金属的腐蚀行为,改变金属腐蚀机制,同时热场可能对缓蚀剂的吸附行为产生显著影响。因此,研究传热作用下金属腐蚀行为和缓蚀剂的作用机制具有重要
在过去的二十年间,二维材料在凝聚态物理的研究中占据了非常重要的地位。作为第一个在实验上成功制备的二维材料,石墨烯独特的电子特性使其成为了凝聚态物理和材料领域的研究焦点。在石墨烯之后,许多新型的二维材料都在实验上成功合成,诸如Mxene,Mo S2,黑磷,BN,以及众多的过渡金属硫化物等等。在这些材料之中,人们发现了许多优良的物理特性,比如二维拓扑,二维磁性,二维铁电等等,再加上二维材料本身尺寸非常
全球互联网流量急速增长,新一代短距光互联系统正向高速率、大容量的方向发展。由于四电平幅度调制(4-level Pulse Amplitude Modulation,PAM-4)信号结构简单、易于实施,已经获得广泛应用。高速PAM-4光信号的监测评估是保障光电模块质量的重要环节,这依赖于先进信号采集与分析技术。传统基于高速光电转换和高精度电域采样的信号分析方法受限于器件工作带宽和自主受控因素,导致测
岩石隧道掘进机挖掘隧道过程中,需及时地将弧形钢拱架拼装成环形结构,以支撑隧道围岩,防止坍塌事故的发生。目前人工辅助拼装钢拱架的作业方式存在效率低、危险性高等问题。因此,本文对钢拱架视觉定位技术进行了研究,开发一套基于双目视觉的钢拱架定位系统,配合机械手抓取钢拱架进行自动化拼装。本文的主要研究内容如下:(1)分析钢拱架结构特点和拼装方式,设计了以铰接孔和棱边作为测量特征的双目视觉定位方案;根据钢拱架
目的:具核梭杆菌(Fusobacterium nucleatum,F.n.)是近年来发现的一种能够引起和加重肠道炎症的肠道细菌,鼠李糖乳杆菌(Lactobacillus rhamnosus,L.r.)是一种具有多种用途的常用益生菌。自噬(autophagy)在维持肠上皮细胞生理和病理状态下的功能的重要因素之一,尤其是在肠上皮细胞对肠道菌群的反应中具有关键作用。本研究旨在探究鼠李糖乳杆菌对具核梭杆菌
语义分割是计算机视觉领域中的一项基本任务,通常根据RGB彩色图像给各像素分配对应的类别,是像素级的多分类任务。近年来的研究表明,在室内场景的语义分割任务中,深度信息的引入会在一定程度上提高分割的精度,原因是深度图像可以提供彩色图像相对匮乏的空间深度信息,能够区分视觉特征相似但深度特征差异较大的不同物体。当前主流深度神经网络均采用固有几何结构的卷积核,而真实世界中物体的形状千变万化,固定几何结构的卷