基于注意力机制的场景文本检测算法研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:fairboy2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习技术的逐渐成熟,自然场景下的文字检测与识别得到了更好的发展,场景文字相关技术可以应用与路牌识别、车牌识别、实时翻译以及场景分类等领域。区别与普通的文档图像检测与识别,以自然场景为背景的图像往往更具有挑战性,由于其背景极具复杂性,会受到各种干扰因素的影响:光照、相似背景物、文字的多样性和图像模糊等。本文将针对自然场景下的文字检测模型展开探究,主要工作如下:(1)详细研究了传统场景文字检测方法以及经典的基于深度学习的检测方法,详述了每个方法的实现原理以及其中的关键技术。分析了自然场景文本检测不同于目标检测的难点,针对难点以目标检测模型为基础进行改进优化,分析研究了三种基于深度学习的经典场景文字检测模型。最后依次将三种模型在公共数据集上复现,将几种检测模型进行对比实验,并对实验结果进行分析,作为后续章节研究的切入点。(2)提出了一种基于角点注意力机制的场景文本检测方法(Method based on Corner Attention Mechanism,MCAM)。通过将特征金字塔引入到特征提取网络中来实现多尺度检测,并且由于直接回归生成的边界框效果并不好,通过将注意力机制加入到边框回归中来实现场景文本区域的检测,可以有效提升回归任务的效果。并且在网络模型训练中,提出使用增加权重因子的交叉熵损失函数来改善训练集中正负样本不平衡的问题,从而降低模型的错检率。(3)提出了一种基于迭代空间变换网络的弯曲文本检测方法(Method based on Iterative Spatial Transformation Network,MISTN)。针对自然场景中存在很多弯曲文本图像,使用经典模型检测效果不佳的问题,在前面研究的基础上,使用迭代空间变换网络将弯曲文本进行图像修正,再作为第三章检测模型的输入。这使得整体的文本检测模型有更好的泛用性,并且能够更好地与识别分支衔接。将迭代思想引入到模型中,通过多次将矫正后图像再次作为输入进入矫正网络来提升最后矫正网络的可视化效果。
其他文献
在包括强度、波长、频率、偏振态等多种光纤传感调制形式当中,基于光学干涉的相位调制型光纤分布式声学传感(Distributed Acoustic Sensing,DAS)技术具有极高的灵敏度和广阔的应用前景。然而,在现有的光纤DAS系统中,普遍采用单波长或者合成波长进行光干涉测量和相位解调,其局限性在于相邻采样点之间的相位变化不能超π,否则必须提升解调系统采样率,这会极大地加重大容量长距离DAS阵列
学位
关系抽取作为自然语言处理中的重要研究领域之一,旨在发现半结构化与非结构化文本中存在的关系类别信息,在知识图谱的构建、问答系统的搭建和信息检索的优化等多个场景中都有着广阔的应用前景。远程监督研究以现有知识库的三元组信息对标待处理文本,减少人力资源投入的同时亦可获得较好的分类效果,是目前主流的关系抽取手段。然而受其基于的假设影响,生成的训练语料中不可避免地引入了标签噪声,如何减少训练过程中噪声数据对关
学位
声源定位在军事和民用领域具有广泛的应用和无可替代的价值,采用麦克风的声源定位技术是最主要的定位方法之一,但麦克风不具备遥感能力,不能抗电磁和射频干扰。光纤光栅分布式声学传感(Distributed Acoustic Sensing based on Fiber Bragg Grating,FBG-DAS)技术因为具有灵敏度高、体积小、抗电磁干扰和分布式远距离传感等优势,在某些领域已经替代传统麦克风
学位
碳化硅(Silicon Carbide,Si C)优异的物理化学性质使其可以在高温高压等极端环境下工作,被认为是最有前景的第三代半导体材料之一。但是Si C是间接带隙半导体,发光效率低,发光难度大,限制了其在光领域的应用。本文针对这一点,利用光子晶体结构和量子限域效应,设计了三层结构的二维光子晶体的Si C纳米薄膜,使用磁控溅射法制备了荧光Si C薄膜,增强了Si C的光致发光性能。(1)使用扫描
学位
图像重着色是图像处理的一个流行领域,被广泛地应用于美术、电影、色盲可视化等领域中,其关键是要根据用户的意愿,将图像中的某一部分的颜色自然生动的变成另一种颜色。基于调色板的图像重着色算法是近年来实现图像重着色的最热门的算法,但其在对复杂光照下的自然图像重着色时,实验结果产生了颜色失真,溢出以及光照信息变化等问题。针对上述问题,本文将自然图像重着色任务分为调色板提取和图像重着色两部分进行了研究,主要研
学位
脑卒中存在着高复发率、高死亡率和高致残率的问题,脑机接口(Brain Computer Interface,BCI)技术作为一种新的信息交流方式,能够有效应用于脑卒中领域的医疗康复。脑卒中患者通过运动想象(Motor Imagery,MI)脑电(Electroencephalography,EEG)信号可以完成对外部设备的直接控制,该过程具有自发性和积极性,有助于诱导患者进行大脑神经回路重塑,从而
学位
在当前的公钥密码体制中,对用户私钥保护的主要措施有专用密码硬件、可信执行环境、软token验证、秘密共享等等,其中专用密码硬件安全性高,但成本过高且不易携带;可信执行环境与软token验证成本相对较低,但容易受到黑客攻击。秘密共享对于用户私钥的秘密采取分开保存的方法,只有获取所有的秘密份额才能破解用户私钥,具有成本低、灵活性好、安全性高等优点。SM9是国家密码管理局发布的基于双线性对映射的公开密码
学位
无人船具有安全性高、高效灵活、可以节约人力物力等优势,是一种新型的平台,具有很大的发展潜力,近年来受到了各个国家的关注。无人船在港口挂靠期间,需要根据所处场景控制船体航行状态,因此水上场景识别技术是无人船智能化发展的重要保障。尽管可以利用现有的基于深度学习的场景识别方法,从海量的视觉数据中学习到不同的模式,训练出具有泛化能力的模型对水上场景图像进行识别,然而针对水上场景图像存在的包含特征丰富、标志
学位
数字处理技术的发展使得对图像进行分析、操作和处理,最终转换为计算机可识别三维模型的方法越发高效,相较于无须考虑视角影响的单张图像,多视图三维重建因自然图像标注视角的缺乏而面对不小的挑战,如何高效利用图像特征实现自然图像的目标视角估计与三维重建已经成为亟待解决的问题。现阶段,各类别图像视角估计模型独立不相关且三维重建模型大多仅利用了单张图像的深层语义特征,模型参数冗余且图像特征利用单一。由于多视图目
学位
单人体解析作为图像语义分割领域的一个重要分支,目前在人体行为识别、行人再识别、图像人体检测等多种应用中扮演着重要角色。但受限于图像中人体及背景的多变性,传统的图像分割方法无法在单人体解析任务上取得良好的性能。目前基于深度学习中的卷积神经网络逐渐成为了图像语义分割的主流方法。相较于传统图像分割方法,卷积神经网络能够挖掘图像深层的语义信息。许多用于图像语义分割的网络模型也逐渐应用于单人体解析任务。但这
学位