自然场景下基于深度学习的文字检测方法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:sunweidong123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景文本作为一种日常生活中的信息载体,蕴含着丰富且精确的信息。因此对自然场景图像中文字的检测与识别在基于计算机视觉的应用中有着广阔的适用范围和极高的商业价值。近年来深度学习的出现为计算机视觉提供了新思路,并在多项基础任务中取得了突破性的成果。由于场景文字在排布、尺度、字体、成像条件等方面均具有高度复杂性,因此对其进行精准定位是一项极具挑战的任务。现有的工作在复杂场景文本检测上已取得了较大进展,但仍存在许多方面亟需改进:第一是如何进一步提高检测准确率,减少误检与漏检;第二是如何精准地检测文本边界;第三是如何简化模型,提高检测效率。针对上述问题,本文基于深度学习算法,从模型特征提取融合、远程信息获取、轻量化等方面,围绕场景文字检测任务展开了一系列研究:(1)针对背景噪声干扰和小尺寸文本漏检的问题,设计了一种基于注意力特征融合与增强的场景文本检测模型(AFFE-Net)。首先,利用注意力机制对有效特征提取的优势,在解码阶段通过提取不同层级特征的细节和全局信息来有效加强特征的信息表达能力。其次,在检测头之前对拼接特征进行通道、空间位置间的关系建模,并生成联合特征权重mask对特征做加权,以此消除背景噪声对文本检测的负面影响,从而有效减少误检与漏检;(2)针对不同尺度文本边缘检测完整性问题,设计了一种基于多尺度联合预测的文本检测模型(MFJP-Net)。首先,通过对多尺度级联特征使用空洞卷积特征金字塔来扩大感受野,从而获取更多远程信息从而对文本边缘进行精准分割。其次,采用双检测头以得到多尺度的预测结果并对其进行融合。此外,在模型训练途中使用Dice损失函数来缓解训练数据正负样本不均衡情况下模型偏向背景的问题,从而提升模型性能,加速模型收敛;(3)针对文本检测模型参数量大,计算时延长,轻量化骨干网络特征提取能力不足的问题,设计了一种基于全局指导双向特征融合的轻量型文本检测模型(BFPF-Net)。首先,通过双向特征融合的方式来增加卷积层数,从而提高网络的特征提取能力。其次,设计全局语义指导分支在特征融合过程中为其补充空间和语义信息,以提高融合特征的信息丰富度。此外,运用深度可分离卷积替代部分普通卷积,从而精简模型复杂度,降低模型的参数量。在不规则文本数据集Total-Text和多方向文本数据集ICDAR-2015上的实验结果表明,本文设计的模型表现良好。在精度P,召回率R、综合指标F1和检测速度、边缘检测完整性上相对于对比方法均有一定的提升。
其他文献
随着社会的发展,现代系统在复杂性、非线性和规模等方面都远比过去的系统大得多,单体系统已经不能满足实际工程,取而代之的是由多个子系统耦合而成的互联系统。然而,由于控制系统太大、太复杂,现实世界的控制问题不能通过一次性的方法来解决,所以集中控制方法解决控制问题就变得很困难。在以上种种的困难情况之下,分散式控制方法应运而生。此外,执行器饱和以及时滞等问题也会增加互联系统的不稳定性。因此,本文针对互联非线
学位
随着物联网设备数量的快速增长,被劫持的物联网设备组成的僵尸网络发起非法攻击的频率大大增加。这是因为大多数的物联网设备的计算、存储能力较低,使得物联网设备成为完美的僵尸网络节点,因此,物联网设备的安全性已经成为一个严峻的问题。因为物联网设备的数量大,种类多,所以针对物联网设备的流量检测需要考虑到各种类型设备工作的特点,从流量中提取合适的特征,然后训练设备的流量监测模型;另外,流量检测模型通常采用半监
学位
在LPWAN领域中,Lo Ra因其低功耗、广覆盖、组网灵活等特点与物联网的需求十分契合,被广泛部署在各个行业,但由于其物理层协议的私有性,Lo Ra的安全性无法得到保障,这也使其应用领域受到限制,因此开发Lo Ra底层的可替代技术变得尤为重要。本课题基于CSS调制技术设计了一套完整的物理层协议,包括对调制解调、信道编解码的研究设计与实现,利用CSS技术优异的传输性能,实现通信网络的远距离传输。具体
学位
量子参数估计是量子计量学的理论基础,而量子Cramér-Rao定理是量子参数估计中研究最为广泛的数学工具。在量子Cramér-Rao定理中,量子Fisher信息矩阵(quantum Fisher information matrix,QFIM)是表征多参数估计精度极限的关键量。近年来,人们从不同的角度对量子Fisher信息矩阵进行了比较丰富的研究。然而关于量子Fisher信息矩阵在低维自旋体系中的
学位
面部表情是人们表达情感的重要途径,近年来随着计算机领域的发展,面部表情识别成为了当前的研究热点并取得了显著的进展,可应用于人机交互、情感计算等计算机视觉领域,人工智能和深度学习的发展则更好地促进了面部表情识别的研究。基于机器学习的传统面部表情识别算法采用人工的方式进行特征提取,所提取的面部表情特征存在人为因素的干扰,以至于训练完成的分类器不能有效地解释表情信息,最终导致模型泛化能力不足,识别准确率
学位
随着人工智能技术发展,在无人机、航空和卫星对地观测等任务中,小目标检测成为近年来的研究热点。通常将对象的边界框与图像的重叠区域占比为0.08%到0.58%之间的目标称为小目标。因获取的有效特征信息少、特征不明显等问题,小目标检测成为未来民用和军事领域急需解决的难题。为了提高小目标的检测准确率,开展了基于深度学习网络和注意力机制的小目标检测算法的研究。主要研究内容包括:(1)针对小目标检测由于分辨率
学位
随着信息产业迅猛发展,人们对通信系统性能的需求不断提高,对具有更大传输容量和更高传输速度的通信系统的研究迫在眉睫。目前对于具有单一功能器件的研究已趋近成熟,但如何既保持单个器件的良好性能,又巧妙地将多个器件级联在同一个芯片上仍需要更加深入的研究。人们对通信系统有着“小体积”、“大容量”、“大带宽”和“集成化”的需求,而硅基光电子集成技术成为解决目前通信系统所面临瓶颈的一个重要方法。硅基光电子集成具
学位
开关磁阻电机(SRM)双凸极定转子结构具有结构简单,稳定性高等优点,被广泛应用于电动汽车和航空航天等领域。无轴承开关磁阻电机(BSRM)将无轴承技术和SRM相结合,使得BSRM兼具悬浮和旋转的功能,不仅降低了摩擦损耗还延长了电机的使用寿命。然而BSRM由于转矩和悬浮力之间的耦合以及转矩脉动较大的问题,阻碍了电机的进一步推广。本文研究的宽转子齿无轴承开关磁阻电机(BSRMWR),其结构的特殊性解决了
学位
相位恢复是指根据已知采样系统中获得的幅值信号恢复出原始信号的过程。现有的测量设备由于采样频率不足,只能记录信号的幅值或强度信息,对于信号的相位信息无法直接获得,而相位信息中又包含大量的结构信息,因此需要通过相位恢复技术来获取相位信息。相位恢复相关的算法在很多成像系统中具有不可替代的作用,在工程和科学领域得到广泛应用,其中光学、衍射成像学、X射线晶体学等。本文将以非凸优化算法为基础,结合去噪先验知识
学位
传染病的传播至今严重威胁着人类的生命安全和世界文明的发展。由于传染病的研究无法通过大规模的实验进行,因此建立具有传染病传播典型特征的数学模型,进行传染病动力学分析,探索传染病传播规律,并推断其发展趋势,是对传染病进行预防和控制的有效手段之一。疾病的传播不可避免的存在时滞,时滞的出现往往会破坏系统的稳定性,诱发更加复杂的动力学行为。同时,疾病的传播是一个动态扩散的过程,易感者和传染源在空间域上会随机
学位