视觉注意力和鲁棒深度特征学习驱动的目标检测与跟踪研究

来源 :安徽大学 | 被引量 : 3次 | 上传用户:weiyuan2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目标的检测与跟踪是计算机视觉领域的基本问题,也是智能视频监控系统的关键与核心技术。随着深度学习技术的推动,这方面的研究已经取得了令人瞩目的成就。但是,由于数据、场景、环境的复杂性,视觉目标的检测与跟踪仍然面临很多挑战。本文围绕上述复杂因素,从视觉注意力和鲁棒深度特征学习的角度出发,对目标检测和跟踪问题开展讨论,分别研究了基于自适应加权的多模态显著性目标检测方法、基于对象驱动视觉注意力的目标跟踪方法、基于困难正样本学习的目标跟踪方法、基于自然语言描述的目标跟踪方法以及基于困难行人身份挖掘的跨相机目标跟踪方法等。在多模态显著性目标检测方面,由于不同的多模态数据对最终结果的贡献不同,本文将重点研究多模态信息融合问题,即如何根据模态的质量实现自适应的加权。对于基于深度学习的方法,由于缺乏关于模态质量的标注信息,导致现有基于深度学习的方法很难将模态质量以监督学习的方式融合到整体的网络结构中。基于上述观察,本文借鉴了深度强化学习的思想,将不同模态的加权问题看做是序列决策问题。我们采取后期融合的思路,将多模态显著性物体检测分为两个阶段来进行。最终,在两个多模态任务上验证了该方法的有效性。对于跟踪问题,针对现有的跟踪算法对严重遮挡、短暂消失以及尺寸变换等挑战因素过于敏感的问题,本文分析了导致这种现象的原因,并且提出联合使用局部和全局候选样本搜索策略来改善在这些场景下的跟踪性能。具体来说,本文通过显示地产生全局注意力图来从中获取候选采样框,实现高质量全局候选框的产生。为了获得更好的运动信息,本文采用3D卷积神经网络来提取连续多帧的视频特征,同时提取初始目标物体的特征,组合后输入到上采样网络结构中。通过均方误差和对抗损失函数,我们可以进行该全局注意力网络的训练。在得到注意力图后,首先利用矩形框来确定高亮区域的位置信息,然后在该区域内部进行高斯采样。在跟踪过程中,同时将这种全局注意力候选样本和局部搜索样本输入到分类器当中,从中选择得分最高的样本作为得到当前帧的跟踪结果。后续模型的更新采用长期更新和短期更新迭代的方式进行。该联合局部和全局的搜索策略打破了常用的局部搜索窗口的局限性,并且在多个数据集上都取得了较好的实验效果。视觉跟踪任务存在的另一个重要的问题是跟踪过程中困难的训练样本太少,而实际基于深度学习的方法都需要海量的训练数据才会取得较好的效果。这就导致基于深度学习的跟踪算法对这些挑战因素的鲁棒性不足。针对上述问题,本文提出采用主动生成大量困难样本的策略来弥补这一鸿沟。特别的,本文利用变分自编码机来构建目标物体的流型,然后通过从该隐藏空间可以采样出大量具有多样性的数据。此外,为了使得模型对遮挡更加鲁棒,本文提出利用背景模块来主动遮挡目标物体的方法来生成困难样本。通过上述操作得到大量困难样本后,再进行深度匹配网络的训练,可以得到更佳的跟踪效果。当前主流的跟踪算法都是基于彩色图像,在给定初始目标位置的基础上进行的。在面临复杂背景、快速运动等问题时,仅仅依赖于物体的表观进行跟踪是不可靠的。本文利用图卷积神经网络,将训练样本的结构化关系考虑到模型中,与此同时,引入自然语言描述来引导更加鲁棒的特征学习。为了处理短暂消失、快速运动、严重遮挡等问题,我们联合利用自然语言描述和目标物体作为条件,通过编码器-解码器网络生成全局注意力图,进行全局候选样本采样。实验证明,在自然语言引导下的视觉跟踪,可以得到更好的跟踪效果。对于跨相机场景下的行人跟踪问题,一种常用的做法是利用三元组损失函数进行特征的学习,然后在特征空间进行行人图像的比对。这种方法采用局部的批量数据构建策略,并且没有考虑到每个行人图像与其平均行人图像之间的关系,从而限制了其最终的识别性能。本文首先利用行人属性识别模型对行人图像进行属性预测,然后通过衡量不同行人图像之间的属性距离,来构建基于全局的批量数据。在训练过程中,本文将同一行人的平均特征和每一张图像之间的关系,作为网络学习的目标之一,添加到三元组损失函数中。在行人属性识别和行人再识别的数据集上验证了本文所提方法的有效性。
其他文献
在分析我国长大深埋隧洞发展历程及研究现状的基础上,阐述了长大深埋隧洞工程遇到的主要工程地质问题,并结合多年积累的调水工程设计、施工、管理等经验,总结已完工及在建的
运用荧光光谱(FS)、紫外光谱(UV)和超滤(UF)法,研究了阿魏酸、毛蕊异黄酮及芒柄花素三种抗氧化小分子物质与牛血清白蛋白(BSA)的结合反应.以Lineweaver—Burk双倒数方程和能量传递原理
老鼠,历来是人类的大敌,比如“过街老鼠,人人喊打”。我也跟同类一样,从小对老鼠没有半点好感。但是,一只小老鼠遇到了一位诗人,奇迹出现了,小小的老鼠登上了神圣的文坛,这就是罗伯特
目的探究CT在高血压脑出血风险预测及预后评估中的价值。方法选取我院2014年2月~2015年6月期间收治的80例高血压脑出血患者,所有患者均采用CT进行检查,采用回顾性分析方法对
<正>自2008年开始执行家电下乡政策以来,洗衣机行业历经近10年的普及和沉淀,2017年踏入"更新"需求期。在房地产市场低迷的背景下,2017年洗衣机市场保持平稳增长。中怡康数据
通过河南丹江口水库湿地现状调查以及南水北调中线工程实施对河南丹江口水库湿地带来的影响进行分析研究,提出了河南丹江口水库湿地保护应采取的生物措施、工程措施、政策和
盐酸四环素属于抗生素类, 目前有关盐酸四环素和牛血清白蛋白二级结构的影响及作用机理报道较少。在模拟生理条件下,采用荧光光谱法、三维荧光光谱法、紫外-可见光谱法、圆二
抗战爆发后,抗敌纪录片和爱国话剧成为了成都电影市场的新生力量。在政府和舆论的双重压力下,电影的教育功用被建构起来,而这种“爱国”的形象,与原本就根深蒂固的“娱乐”标
SPX (SYG1/PH081/XPR1)结构域是位于蛋白质N端含有180个氨基酸残基的结构域,植物中很多含有SPX结构域的蛋白都参与了磷相关的信号转导和调控。目前对于AtSPX1基因功能的研究