论文部分内容阅读
视觉目标跟踪技术是计算机视觉领域中一个基础且重要的研究方向,在视频监控、自动驾驶、智慧交通、军事目标定位等诸多领域具有重大的研究意义和实际应用价值。基于跟踪任务自身的高度复杂性,传统的目标跟踪算法一直难以有效的应对实际场景中遇到的各种困难与挑战。近些年来,深度学习技术凭借其自动抽取数据特征的优势和强大的问题拟合能力,在人脸识别、图像分类、目标定位等诸多计算机视觉领域取得了巨大成功,同时也为解决目标跟踪领域所面临的各种挑战提供了全新的视角。目前,基于各种深度网络模型的跟踪算法尽管改进了传统算法同时也提出了一些新的理论,但构建一个实时且鲁棒的目标跟踪系统仍然是一个巨大的挑战。本文以深度神经网络模型(特别是递归神经网络和孪生神经网络)为理论基础,重点关注跟踪过程中的特征学习、背景与边界干扰、实时性与鲁棒性要求,结合相关传统算法开展了研究工作,具体研究内容概括如下:1)提出了基于空间多方向递归神经网络调制的层次化核相关滤波器跟踪算法。传统的核相关滤波器方法由于循环样本的不纯净和手工特征有限的表达能力,导致学习到的滤波器判别性不够,易受边界和背景的干扰,使得产生的响应图带有很多噪声。在这项工作中我们使用空间多方向递归神经网络编码位于目标区域周边的上下文语义信息,作为一个背景抑制惩罚项,来调制在目标区域内部多尺度层次卷积特征上学习到的核相关滤波器。目的是让学习到的滤波器能够重点关注目标区域,而降低受背景和边界的干扰,达到缓解输出响应图受噪声的影响。同时,用提取的层次化卷积特征来应对各种目标外观变化,继而能提高核相关滤波器的对于目标与背景的判别能力,降低跟踪失败风险。2)提出了基于多任务孪生神经网络联合推断的跟踪算法。目标跟踪问题也可以看成是视频序列中前后两帧图像块的匹配问题。原始的基于深度网络模型匹配策略的跟踪算法在匹配过程中没有带入任何先验知识,而且是训练一个端到端的跟踪模型,模型不更新且网络结构精简,致使跟踪模型很难有效应对目标长期的外观变化,尽管能保证实时性但精度不够高。我们预训练一个端到端的多任务孪生神经网络,将跟踪问题划分为回归与分类两个子问题。通过输入图像对的相似程度来判定是否直接回归出目标位置和尺度的偏移量,同时利用分类分支来带入样本匹配的先验信息,调节回归分支预测的结果。为了进一步提高模型稳定性,结合自适应更新的核相关滤波器方法来对跟踪失败无法预测目标状态区域进行重检测。通过这种集成的自适应跟踪模型,采用一种联合推断策略来提高模型的判别性和鲁棒性,同时缓解跟踪模型复杂性和实时性无法达到一致性平衡的困境。