论文部分内容阅读
本论文探讨了计算机视觉领域最为根本的视觉目标跟踪算法问题。目标跟踪算法广泛地应用于各种智能监控场景,人机交互,医学成像,以及自动驾驶等等,能够显著提高监控效率,降低社会成本,具有广泛的研究意义和应用前景。尽管目标跟踪算法受到较多关注,但其性能依然受限于目标形态变化、快速运动、光照变化、严重遮挡、离开视野等等。本论文工作主要包括利用浅度和深度的学习提高视觉跟踪算法的鲁棒性。研究成果主要体现在如下几个方面: 首先,本文提出了一种基于多相关滤波器的长期跟踪算法,各滤波器具有不同的更新策略,协同地进行长期跟踪。本文首先回顾了目标跟踪的模型更新问题,即模型更新过快导致漂移,更新过慢导致无法适应目标的外观形状变化。在严重遮挡或者目标消失的时候,本文设计了基于支持向量机的重检测机制,一旦目标重新进入视野,本文算法能够重新捕获目标从而对跟踪目标。为了提高滤波器的性能,我们还提出了一种新的亮度直方图特征对目标进行描述。广泛的实验证明,本文的算法性能优越,能有效解决严重遮挡、目标丢失、尺度变化等跟踪难点。 其次,鉴于传统的手工设计的特征对目标跟踪性能的影响,本文探讨了如何有效利用深度学习特征提高跟踪算法的鲁棒性。典型的深度神经网络描述了输入图像的不同层次的抽样信息,比如靠近输入端的网络层更注重图像的纹理细节,而靠近输出端的网络层保留的是图像的抽象语义信息。本文提出了先利用高层的抽象信息对目标进行粗略定位,再利用浅层的纹理细节进行精细定位。这种自粗向细的跟踪算法结合了深度学习和相关滤波器的优势,在大规模的目标跟踪测试集上取得了当前最好的结果,速度也领先于当前基于深度学习的跟踪算法。 再次,本文探讨了相关滤波器和卷积滤波器的联系,并且提出了利用三层的深度神经网络直接学习空间上的相关性。本文采用一种保守的策略更新深度的卷积神经网络,使得学到的深度网络更好的保留了关于跟踪目标的长期记忆。深度网络的输出响应和相关滤波器的输出响应同时用来预测目标出现的位置。 最后,本文提出了利用深度卷积神经网络在大规模的视频序列上学习时间不变性特征来对目标进行跟踪。实验结果表明时间不变性特征对不同运动模式都较为鲁棒,相比于传统的基于梯度的手工设计的特征,能够明显提升目标跟踪算法的性能。本方法采用线性的相关滤波器对时间序列上相邻帧进行建模。 综上所述,本文对视觉目标跟踪算法的关键问题点进行了广泛深入的研究。针对模型更新问题,利用浅度学习和长短期记忆效应设计跟踪算法;针对传统手工特征的局限,提出深度学习特征和多相关滤波器相结合的跟踪算法;此外,本文讨论了深度神经网络模拟相关滤波器的跟踪算法;最后,提出了在大数据视频上学习时间不变性特征的鲁棒性跟踪算法。本文原创性地提出了四种不同算法,侧重于把握视觉跟踪算法的不同层面。大量理论分析和实验结果表明,本文提出的一系列方法稳定高效,显著提升了视觉目标跟踪算法性能。