基于多尺度融合的场景文本检测算法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:chunguangdong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的兴起,图像数据呈爆炸式的增长,文档文本检测已不再满足人们的日常需要,更多的将是对场景文本的进一步研究。而场景文本检测又由于其特殊性,受到诸如光照、背景复杂度、文本多样性等多种因素影响,已成为近几年研究的热点之一。目前主流检测算法主要基于深度学习的方式,针对多方向文本边框的线性特征设计且均具有较好的检测结果,但由于曲线文本自身的特殊性即对应表征方式未能实现边缘轮廓的精准定位,造成精度下降的问题。为此,本文从多尺度融合和边框细化角度出发,采用图像分割与目标检测相混合的方式用于改进场景文本检测。主要研究内容具体如下:(1)卷积或池化操作往往会影响特征尺寸的大小,如果多次池化将导致特征尺寸太小,减少池化层又会影响感受野而忽视像素级的重要信息。为了平衡这一关系,采用双分支融合网络的方法,即结合ASPP网络和特征金字塔网络各自优点增强感受野以获取不同尺度的层级信息,提高对小目标、长文本的检测作用,同时该方法也可有效缓解因空间信息丢失造成的影响。(2)通常采用四边形锚框设计对曲线文本并不能起到有效的表征,因此本文提出一种二阶段细化方式作用于检测层。该方法包含直接回归和形状表征两个模块,第一阶段直接回归用于确定文本粗略位置,第二阶段形状表征通过图像分割原理获取文本区域、中心线并合并生成相应的连通区域,再结合多个采样点重构生成文本行与外界边框,最后裁剪细化边框获得更为精准的曲线文本检测结果。(3)为了抑制一阶段冗余边框进而提升文本位置的精准定位,采用局部感知NMS的方法优化,同时针对本文模型存在的正负例样本不平衡以及重叠锚框回归损失不易计算的问题进行参数上的优化。在损失函数部分引入加权的Focal loss和GIo U分别作用形状表征和直接回归模块,使得整体模型训练过程更为稳定。本文算法在ICDAR2015和Total-Text数据集上进行测试,以召回率、准确率、F值作为评价依据。实验结果表明本文算法与其他主流算法相比,曲线文本准确率和F值均有所提升,且在多方向文本上也有较好的检测结果,从而进一步验证本文方法可行,且具有较强的鲁棒性。
其他文献
无线传感器网络(Wireless Sensor Network,WSN)在军事以及民事上有着广泛的应用。在其众多应用中,节点定位技术是一项重要的、基础性的技术。WSNs的节点定位算法根据现有定位技术,可分为基于测距以及基于非测距这两大类算法。非测距算法中的DV-Hop算法因其具有成本低、通信量小、实施简单等特点,使其成为非测距算法中研究较多的一种定位算法。本论文重点针对经典DV-Hop算法进行研究
无线射频识别(Radio Frequency Identification,RFID)技术是一种通过特定频率的无线射频信号进行通讯的双向数据传输技术,能够实现自动化、非物理接触式自动识别的功能。RFID技术的不断推广使其逐渐成为推动物联网发展的核心技术之一。区别于传统的识别技术,除了具备非接触的优点,同时兼备读取信息方便准确、速度快、使用寿命长、抗干扰性强等诸多优点。目前RFID技术已经应用到包括
无线射频识别(Radio Frequency Identification,RFID)技术是物联网中信息传感技术之一,是利用无线射频信号实现的非接触式自动识别技术。因为RFID抗污染性好和穿透性强等优势,其已被广泛应用于商业、交通和医疗等场景。然而,由于RFID的非接触通信方式,RFID系统存在各类安全威胁,通常采用安全认证协议来保证RFID系统的安全性。同时,对于低成本的无源标签,现有的安全认证
随着移动通信技术的发展以及智能手机等移动终端的普及,通信数据呈现指数级的增长。手机用户在打电话、发短信和上网过程中会产生大量的手机信令数据,这些数据无法通过人工来分析处理。然而随着大数据技术的来临,这些数据蕴藏的价值也越来越凸显。在此背景下,本文提出了基于手机信令大数据的目标轨迹分析和提取的方法。目前对于轨迹分析研究主要采用的是GPS定位数据,其定位精度高但受天气等因素影响较大。相比于GPS定位数
面对井喷式增长的网络流量和提升用户隐私保护的要求,基于端口号和有效载荷的传统流量分类方法已经无法满足快速实时的分类要求。在迅猛发展的互联网时代,网络流量分类技术对于提高网络的管理效率,提升用户的网络体验,保障网络环境的绿色和安全有着至关重要的作用。因此本文深入流量分类技术的研究,研究内容分为以下三个方面。首先,面对加密流量难以提取有效信息的问题,本文提出了一种基于改进DCGAN的加密流量数据生成方
随着网络通信技术的不断发展和基础设施的迅速完善,云计算和边缘计算逐渐走向成熟,这两种计算模式在处理复杂任务时各有优势,因此将云计算中心化处理和边缘计算就近处理结合的云边融合计算应运而生。然而云边融合计算在提供高效计算能力的同时,其所面临的数据安全与隐私保护问题也愈发突出。一方面,云计算部分已经成为数据挖掘的强有力保障,那么如何在数据挖掘和保护用户隐私之间进行权衡,在保证隐私信息安全的前提下获得数据
跨项目缺陷预测(Cross-Project Defect Prediction,CPDP)是一种在没有足够的历史缺陷数据情况下建立精确预测模型的可行解决方案,因此近些年来CPDP成为了一个研究热点。尽管现有的CPDP方法已取得了不错的预测结果,但其预测性能仍有一定的提升空间。一方面,现有的大多数CPDP方法未能在减小数据分布差异的同时充分利用可用的标签信息。另一方面,近些年有相关研究工作从软件源代
目标跟踪是机器视觉中的一个重要分支,其目的是对视频中的指定目标进行跟踪。从跟踪数据集来看主要分为地面监控视频和无人机监控视频,本文考虑几种主要的无人机视频数据集和一个地面监控视频数据集。相关滤波的目标跟踪算法在视频跟踪中表现出良好的性能,其中的自适应空时感知算法是最近比较热门的模型之一。评价目标跟踪性能的两个重要指标是准确度和精确度,本文从这两个指标出发,对自适应空时感知模型进行分析和改进。为了解
语音情感识别作为情感计算的一个重要分支,因其快速、便捷、真实的特点,受到了广泛学者的深入研究。在过去的语音情感识别研究中,学者们多数使用传统的机器学习方法来进行语音情感识别的研究。然而近几年随着深度学习的火热,深度学习方法在各个领域中都表现出了优异的性能,成为其中的翘楚。本文主要工作是研究如何使用神经网络提取语音中的情感信息,选择出利于情感识别的语音特征,进而提高语音情感识别效果。主要工作如下:(
基于TCP/IP的网络由于设计之初对支持移动性考虑不足,难以适应车载高速移动环境,这成为制约车联网和车内娱乐发展的瓶颈。针对现有车载娱乐系统时延高且不稳定的问题,研究了NDN基本原理、NDN车联网应用场景、聚类划分算法、视频传输相关技术等。主要研究内容和创新点如下:(1)在深入研究NDN基本原理和车联网特性的基础上,提出了将NDN运用于车联网的构想,以替代传统基于TCP/IP体系结构的车联网。ND