论文部分内容阅读
视觉目标追踪是机器视觉领域最基础也是最重要的研究方向,在现实生产生活中有着大量应用需求,一直受到研究工作者的重点关注。视觉目标追踪方法一般由两个模型构成:视觉表达和追踪决策。在视觉目标追踪过程中,追踪决策根据目标对象的视觉表达,将其从视频序列中持续地标注出来。随着深度学习技术的复兴,视觉目标追踪的研究迎来一次重大机遇。相比于传统视觉目标追踪方法所使用的手工描述特征,基于深度学习的视觉目标追踪方法(简称为“深度视觉目标追踪方法”)通过卷积神经网络学习到的深度特征具有更好的判别和表达能力;而全卷积孪生网络进一步将视觉表达和追踪决策集成到统一框架之中,使深度学习的端到端训练和推理优势在视觉目标追踪领域得以充分发挥。但是在追踪过程中,目标对象的外观会发生各种各样变化以及视频序列中存在各种复杂干扰因素,给视觉表达和追踪决策带来了巨大的挑战和困难。本文针对深度视觉目标追踪方法中的表达增强和决策优化两个方面展开深入的研究,主要内容如下:(1)鉴于使用相关滤波器作为追踪决策的非端到端深度视觉目标追踪方法虽能使用稠密样本和高维深度特征进行快速优化,但限于基于岭回归的决策优化模型的判别能力较弱,其追踪性能有待进一步提升。本文使用具有强判别能力的支持向量机对相关滤波器进行优化,并构建了基于支持向量滤波的追踪决策模型。该模型一方面借助相关滤波器的循环结构化采样和频域快速计算,使用稠密样本和高维深度特征进行优化;另一方面将追踪任务等价为目标对象和背景环境的分类间隔最大化问题,提升了非端到端深度视觉目标追踪方法的判别能力。此外,为解决单一类型深度特征对目标对象外观变化表达不充分的问题,本文使用多层互补深度特征增强视觉表达的鲁棒性,并通过多置信融合策略以获得更准确的追踪结果。(2)基于静态图像分类数据集预训练的卷积神经网络在动态的视觉目标追踪任务中不具备普适性,其原因是无法学习到具有关键作用的目标对象与背景环境之间的类别差异性信息以及目标对象在视频序列中的时序关联性信息。本文对机器视觉的注意力机制进行了深入研究,设计了基于注意力学习的表达增强模型。该模型在视觉目标追踪过程中借助视频帧间注意力和图像帧内注意力,以充分挖掘潜在的关键信息并实现视觉表达的选择性增强。此外,为提升追踪决策对目标对象外观变化的适应能力,构建了基于背景感知相关滤波的决策优化模型,并将该模型嵌入到主干网络中。在实现决策模型和视觉表达端到端训练与推理的同时,还可以根据目标对象与背景环境的变化对决策模型进行在线优化。(3)针对深层结构卷积神经网络往往会引入大量参数并在下采样过程中造成目标对象纹理细节丢失,以及浅层结构卷积神经网络顺序推理得到的语义结构化信息存在类别表达能力不足问题,本文对深度特征的层次化学习进行了深入研究,设计了具有深层结构和对称拓扑的表达增强模型,通过自底向上和自顶向下的重复推理过程中不断提取并聚合不同层次的低阶几何纹理和高阶语义信息。同时,为了提升模型的训练与推理效率并降低参数量,研究并探讨了深层结构卷积神经网络的轻量化方法。在表达增强的基础上,本文进一步提出了基于标注框检测的决策优化模型,实现对目标对象更精准标注。(4)针对目前深度视觉目标追踪方法在处理目标对象尺度变化时往往需要生成额外尺度候选和引入冗余参数的问题,本文构建了基于极点感知的决策优化模型。将目标对象建模为位于其四个边缘方向上的极点,通过检测四个极点的位置以实现对目标对象尺度变化的准确估计。该模型简单高效,直接依赖视觉表达结构化输出目标对象尺度大小。同时,鉴于极点的空间精度敏感性以及目标对象边缘区域缺少语义结构化信息,本文提出了基于跨层并行细化的表达增强模型。通过对具有不同空间分辨率的边缘纹理及语义信息进行多次并行的信息交换和自顶向下的自适应融合,有效为极点感知追踪决策提供既具有高空间分辨率又包含丰富层次化信息的视觉表达。本文结合深度学习技术,针对现有视觉表达模型和追踪决策模型所存在的不同问题及缺陷开展研究,提出了一系列基于表达增强与决策优化的深度视觉目标追踪方法,以有效地提升视觉目标追踪的性能和效率。在多个大型公开视觉目标追踪评测数据集上的评估结果表明,所提出的深度视觉目标追踪方法在各种复杂场景下能准确并稳定地标注出所追踪的目标对象,为该领域的发展提供了一定的借鉴和指引。