基于注意力机制的单阶段目标检测技术研究

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:ygeneral
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目标检测是计算机视觉领域中最基础且最具挑战性的任务之一,包含目标分类和定位。与此同时,目标检测作为图像理解和计算机视觉的基石,它为视频跟踪等任务提供了强有力的特征分类基础。最近,深度学习利用强大的分层特征提取和学习能力表现出更强的鲁棒性。尽管如此,现有方法在面对多尺寸目标检测和密集成群的小目标检测时仍无法取得较好的效果。为解决这些问题,本文旨在研究利用特征融合和重构的方法增强与丰富多阶段特征图中的多尺寸目标信息,利用视觉注意力机制捕捉富感受野下的目标特征信息,增强特征提取网络对小目标的特征表达能力。本文的研究内容如下:(1)针对现有单阶段多锚框SSD算法存在的多尺寸目标检测效率低下和特征图中目标信息冗余的问题,本文提出一种基于特征融合和重构的单阶段多尺度目标检测算法。首先,提出一种多尺度注意力模型,增强浅-中-深层特征图中目标全局语义特征信息。其次设计一种自适应分层特征加权机制,完成多阶段分层特征图的细粒度信息融合。最后,为解决深层特征图中信息冗余的问题,本文提出一种特征图重构模块,对结果特征图进行分割、视觉注意力关注和重组,关注于特征图中重点信息与消除冗余的目标特征。(2)针对现有视觉注意力模型分离通道式空间式注意力导致的图像特征提取不充分与小目标特征提取能力差的问题,本文提出一种特征信息交互注意力模型,设计信息编织结构融合多维度特征图,完成通道式空间式注意力特征图的细粒度融合。在此基础上,提出一种自适应循环特征信息交互注意力模型,多次且重点关注局部特征图,完成目标全局语义特征与局部上下文信息的提取、融合和增强。大量的实验结果表明我们的方法优于现有注意力模型,并在目标检测任务上表现出较好的性能。
其他文献
随着云计算不断发展成熟,越来越多的用户将本地私有数据外包给云服务器计算。与此同时,云端数据被恶意篡改,用户隐私泄露等云计算安全问题也日益严重。隐私集合交集协议在实现云外包集合交集计算的同时能保护用户隐私,一定程度上为促进云安全计算提供了可靠保障。然而,现有的隐私集合交集协议致力于防止用户隐私泄露,忽略了云计算结果的可验证性和抵抗共谋攻击等问题。一方面,云服务器可能为了节约计算资源或谋取经济利益等目
学位
信息隐藏是一种将秘密信息以不可见的形式隐藏到多媒体载体中的技术。通过使用这项技术,发送者和接受者可以在通信的同时不引起第三方怀疑。传统的信息隐藏方法是根据秘密信息直接修改多媒体载体,对载体的修改必然会导致载体出现不同程度的失真。随着隐写分析技术的快速发展,隐写分析器能够捕获到越来越细微的载体失真,这直接威胁到了传统信息隐藏方法的安全性。为了从根本上保证信息隐藏技术的安全性,研究人员提出了构造式信息
学位
传统机器学习或模式识别问题通常假设:1)训练数据和测试数据服从相同分布;2)训练数据充足且有标注。这样的假设过于理想且在实际问题中很难成立,为了克服数据分布不同且无标记或者少标记的问题,域适应作为新的机器学习范式被提出。截至目前,已有大量域适应方法被提出,但域适应的场景丰富多变且域间域内关系错综复杂,现有方法并不能很好地根据域适应的场景设置挖掘其特有的先验知识、领域关系等。为此,本文针对无监督域适
学位
隐写术和隐写分析是当前信息隐藏领域中重要研究热点。隐写术的滥用造成不少的安全隐患,如:商业犯罪分子利用隐写技术完成隐蔽通信来实现信息盗取。图像隐写术是一种通过修改数字图像的复杂区域来嵌入秘密信息以达到隐蔽通信目的的技术,但由于隐写术的特殊性导致其可能被用于非法领域,因此研究隐写分析技术对维护信息安全具备重要的研究意义和实用价值。隐写分析技术按照其技术基础分为基于人工特征的隐写分析方法和深度隐写分析
学位
分类任务是机器学习中一项重要的分支,分类算法利用样本中的特征信息将实例进行类别的划分。但是,由于特征数量的急剧增长,“维度灾难”问题严重影响了分类算法的性能。特征选择技术通过对数据集中不相关或冗余的特征进行剔除,能够很好地解决“维度灾难”问题。特征选择可以被视为组合优化问题,即从特征全集中挑选出合适的特征组合形成特征子集。遗传算法作为进化算法中最具代表性的经典算法之一,全局搜索能力突出,特别是针对
学位
在过去的20年中,核方法已成功用于解决许多机器学习和模式识别问题。众所周知,核方法的性能高度依赖于核参数的选择。传统的模型选择在交叉验证的框架下基于格子、随机或者手动搜索实现。然而这些方法都是在离散的参数空间中选择有限个候选核参数,然后多次训练模型,这需要很高的计算成本。尽管研究者们已经提出了非线性解路径算法用于在连续的参数空间中选取核参数,但这些方法仍不能保证搜索到整个参数空间内最优的核参数值。
学位
深度伪造是利用深度学习强大的拟合能力来生成逼真人脸的一种技术。目前已经有着大量使用此类算法生成的恶意视频在网络中传播,对个人隐私和社会稳定造成严重威胁。也因此,深度伪造检测成为当前亟待解决的问题。目前伪造人脸检测的相关研究已经能够在各个数据集上表现出足够高的精度,但在泛化性仍有不足。不同的伪造算法所留下的痕迹各不相同,未知数据分布更是增加了检测难度。现有很多方法都是针对于某种特定伪造算法所产生的特
学位
作为数字图像处理与计算机视觉中的关键任务,图像分割是对图像中像素点进行分类,为后续图像信息精细化理解及分析提供支撑。图像分割现已广泛应用于工业、遥感、医学、生物识别等领域,一直是学者们关注的热点。目前,基于有限混合模型的方法凭借其在图像分割任务中展现出的良好性能,成为该领域的流行方法之一。然而,模型参数的大量引入往往导致模型难以选择,同时增加了计算复杂度。此外,当前该方法主要依赖独立像素,并未充分
学位
近年来,随着深度学习技术和操作简单的图像编辑工具的快速发展,人们可以容易的对人脸图像进行篡改甚至生成新的人脸图像。这些假脸图像十分逼真,人们很难发现破绽。一旦这些虚假的人脸图像在互联网上被广泛的传播、复制、伪造,那么将对日常隐私以及社会安全产生巨大的威胁。目前,研究者已提出很多深度伪造人脸检测算法。但是,这些算法在应用到现实场景中会面临如下两个问题:(1)图像传播过程中可能会经过压缩、模糊等后处理
学位
现代互联网通信技术的发展和多媒体技术的普及,为图像、视频、音频等多媒体信息的共享与存储带来了便利。但同时带来了多媒体信息版权盗用的问题,造成了严重的信息安全隐患。数字水印技术以不可见的方式将版权信息嵌入多媒体信息中,能够有效实现版权保护和侵权行为追溯。本文针对使用较为广泛的静态图像载体,优化其在鲁棒性、不可感知性方面的综合性能,主要工作及创新点如下:1.针对现有方法难以抵御几何去同步攻击的问题,提
学位