论文部分内容阅读
视觉目标跟踪作为计算机视觉领域的重要研究方向,在视频监控、人机交互,智能交通、军事目标定位等方面有着广泛的应用。经过60余年的发展,视觉目标跟踪技术取得了很大进展,但受目标形变、遮挡、环境光照变化等诸多因素的影响,尚没有一种通用的跟踪算法可以解决上述所有问题。因此,设计鲁棒性强、跟踪精度高、实时性好的目标跟踪算法是一个颇具挑战性的工作。近年来,基于相关滤波理论的跟踪方法在视觉目标跟踪数据集上取得了优越的性能。这一类方法在初始化阶段训练一个判别性相关滤波器(Discriminative Correlation Filter,DCF),随后的步骤由检测和更新交替进行;1)检测:在前一帧目标位置处获取当前目标外观与滤波器做相关运算得到相关响应图,根据响应峰值确定当前帧目标位置;2)更新:利用新的当前帧目标位置提取目标外观、再根据期望输出对相关滤波器进行更新。由于上述操作均可在频域中通过快速傅里叶算法实现,基于相关滤波的跟踪方法在实时性上具有非常显著的优势。围绕这一框架,后续研究主要集中在外观模型改进、训练与更新策略、应对目标尺度变化等方面。随着深度学习的兴起,卷积神经网络(Convolutional Neural Networks,CNNs)在图像特征表达上显示了巨大的优越性。本文将基于相关滤波的跟踪方法与深度神经网络相结合,针对目标外观表达和尺度自适应策略开展研究,主要内容如下:(1)在将相关滤波器从单通道特征扩展到多通道基础上,针对不同的目标外观表达,即原始灰度特征、HOG特征、卷积神经网络不同卷积层输出的深度特征,分别训练相关滤波器进行跟踪;其中深度特征的提取利用了VGG网络的迁移学习特性,直接采用MatConvNet库中针对图像分类任务的VGG网络模型imagenet-vgg-2048-network,分别提取该网络的每一个卷积层输出作为特征;将上述特征应用到跟踪器、在OTB-2013数据库上进行了测试。实验结果表明深度特征相对于传统的手工特征具有显著优势,特别是深度特征第1层和第5层提升效果最明显。以此为依据,本文提出用第1层和第5层特征分别训练相关滤波器、将两者的跟踪响应加权后作为最终的跟踪结果;实验结果表明该方法对跟踪的精度和鲁棒性有进一步的改进。(2)研究了一种基于深度特征的连续域相关滤波方法(Continuous Convolution Operator Tracker,C-COT)并进行了改进。针对传统判别式相关滤波方法只使用单一分辨率特征而导致跟踪性能受限的问题,C-COT通过隐式插值将每个卷积层特征图转化为连续函数,在连续域中定义和学习相关滤波器,每一层相关响应图进行加权求和得到最终的置信图;以此实现不同分辨率的特征图自然融合。在C-COT算法基础上,本文针对目标尺度变化引入了尺度自适应机制,通过对目标候选区域进行多尺度采样,提取其HOG特征构建尺度滤波器对目标尺度精确估计。实验结果表明,综合考虑不同跟踪条件下的成功率和精度,本文方法对目标尺度变化问题有较好的解决,对跟踪性能的改善具有较显著的效果。