论文部分内容阅读
目标的检测与跟踪是计算机视觉领域的基本问题,也是智能视频监控系统的关键与核心技术。随着深度学习技术的推动,这方面的研究已经取得了令人瞩目的成就。但是,由于数据、场景、环境的复杂性,视觉目标的检测与跟踪仍然面临很多挑战。本文围绕上述复杂因素,从视觉注意力和鲁棒深度特征学习的角度出发,对目标检测和跟踪问题开展讨论,分别研究了基于自适应加权的多模态显著性目标检测方法、基于对象驱动视觉注意力的目标跟踪方法、基于困难正样本学习的目标跟踪方法、基于自然语言描述的目标跟踪方法以及基于困难行人身份挖掘的跨相机目标跟踪方法等。在多模态显著性目标检测方面,由于不同的多模态数据对最终结果的贡献不同,本文将重点研究多模态信息融合问题,即如何根据模态的质量实现自适应的加权。对于基于深度学习的方法,由于缺乏关于模态质量的标注信息,导致现有基于深度学习的方法很难将模态质量以监督学习的方式融合到整体的网络结构中。基于上述观察,本文借鉴了深度强化学习的思想,将不同模态的加权问题看做是序列决策问题。我们采取后期融合的思路,将多模态显著性物体检测分为两个阶段来进行。最终,在两个多模态任务上验证了该方法的有效性。对于跟踪问题,针对现有的跟踪算法对严重遮挡、短暂消失以及尺寸变换等挑战因素过于敏感的问题,本文分析了导致这种现象的原因,并且提出联合使用局部和全局候选样本搜索策略来改善在这些场景下的跟踪性能。具体来说,本文通过显示地产生全局注意力图来从中获取候选采样框,实现高质量全局候选框的产生。为了获得更好的运动信息,本文采用3D卷积神经网络来提取连续多帧的视频特征,同时提取初始目标物体的特征,组合后输入到上采样网络结构中。通过均方误差和对抗损失函数,我们可以进行该全局注意力网络的训练。在得到注意力图后,首先利用矩形框来确定高亮区域的位置信息,然后在该区域内部进行高斯采样。在跟踪过程中,同时将这种全局注意力候选样本和局部搜索样本输入到分类器当中,从中选择得分最高的样本作为得到当前帧的跟踪结果。后续模型的更新采用长期更新和短期更新迭代的方式进行。该联合局部和全局的搜索策略打破了常用的局部搜索窗口的局限性,并且在多个数据集上都取得了较好的实验效果。视觉跟踪任务存在的另一个重要的问题是跟踪过程中困难的训练样本太少,而实际基于深度学习的方法都需要海量的训练数据才会取得较好的效果。这就导致基于深度学习的跟踪算法对这些挑战因素的鲁棒性不足。针对上述问题,本文提出采用主动生成大量困难样本的策略来弥补这一鸿沟。特别的,本文利用变分自编码机来构建目标物体的流型,然后通过从该隐藏空间可以采样出大量具有多样性的数据。此外,为了使得模型对遮挡更加鲁棒,本文提出利用背景模块来主动遮挡目标物体的方法来生成困难样本。通过上述操作得到大量困难样本后,再进行深度匹配网络的训练,可以得到更佳的跟踪效果。当前主流的跟踪算法都是基于彩色图像,在给定初始目标位置的基础上进行的。在面临复杂背景、快速运动等问题时,仅仅依赖于物体的表观进行跟踪是不可靠的。本文利用图卷积神经网络,将训练样本的结构化关系考虑到模型中,与此同时,引入自然语言描述来引导更加鲁棒的特征学习。为了处理短暂消失、快速运动、严重遮挡等问题,我们联合利用自然语言描述和目标物体作为条件,通过编码器-解码器网络生成全局注意力图,进行全局候选样本采样。实验证明,在自然语言引导下的视觉跟踪,可以得到更好的跟踪效果。对于跨相机场景下的行人跟踪问题,一种常用的做法是利用三元组损失函数进行特征的学习,然后在特征空间进行行人图像的比对。这种方法采用局部的批量数据构建策略,并且没有考虑到每个行人图像与其平均行人图像之间的关系,从而限制了其最终的识别性能。本文首先利用行人属性识别模型对行人图像进行属性预测,然后通过衡量不同行人图像之间的属性距离,来构建基于全局的批量数据。在训练过程中,本文将同一行人的平均特征和每一张图像之间的关系,作为网络学习的目标之一,添加到三元组损失函数中。在行人属性识别和行人再识别的数据集上验证了本文所提方法的有效性。