论文部分内容阅读
目标跟踪是计算机视觉领域中最基础的任务之一。尽管该任务在监控安防、自动驾驶和增强现实等任务中有大量的应用,但其任务本身仍然具有非常高的挑战性。近年来,基于孪生网络形式的目标跟踪器因其实时的跟踪速度和不错的跟踪性能而备受关注。在这类跟踪器中,一个开创性的工作就是孪生全卷积神经网络目标跟踪器。这种结构的跟踪器一个很重要的优势是在实际跟踪时几乎不需要在线训练,因此,使用该结构的跟踪器能够轻易的达到较高的速度。同时,这种全卷积的网络结构能够充分利用离线训练数据,进一步使得自身具有高度的概括性和区分性。
尽管这种跟踪框架取得了巨大的成功,但其本身仍然存在三个方面的限制影响其发展:
第一,现有模型不够稳健。当目标有明显外观变化或者在背景处有其它外观相似的干扰物时,现有模型易受到干扰物的影响,从而使得跟踪器无法稳健地跟踪;当模板中目标附近有显著物体存在时,现有模型缺乏对当前视频的适应,从而使得跟踪器无法稳健地聚焦在被跟踪的目标上。
第二,现有模型不够准确。当被跟踪目标有较大的角度旋转时,现有模型不能准确地输出精准的标定框;当目标尺寸比例异常时,现有模型无法准确地选择特征作为目标的模板。
第三,现有模型不够高效。当模型使用锚定框分类和回归机制来预测目标形状变化时,现有模型需要一个更复杂的头部网络,模型的参数没有被高效利用;当增加骨干网络的深度时,跟踪器性能的改善并不明显,模型更高的表达能力没有被高效利用。
本论文针对现有模型存在的上述问题,提出了三个方案对其进行改进:基于语义特征的双重孪生全卷积网络跟踪器、基于角度估计以及空间掩码的更优匹配孪生全卷积网络跟踪器和基于二阶段免锚定框的对位置敏感的精准定位孪生全卷积网络跟踪器。
基于语义特征的双重孪生全卷积网络跟踪器主要解决的是现有模型不够稳健的问题。语义特征的融入不仅使得该框架对于目标的形变具有更高的概括能力,还能抑制背景中外观相似但语义上完全不同的物体响应的大小,而原本就有的外观特征让跟踪器仍然保持足够的区分力。注意力机制的引入,让模型能够根据目标的上下文背景信息自适应地判断当前通道特征的重要程度,增强与目标相关的通道,抑制与背景相关的通道,使得跟踪器在跟踪时能对目标有一定程度的自适应能力。最后,多层次特征机制的引入则进一步提升了模型性能。
基于角度估计以及空间掩码的更优匹配孪生全卷积网络跟踪器主要解决的是现有模型不够准确的问题。角度估计机制的引入让该框架不仅能跟踪目标位置和大小的变化,同时还能让模型跟踪目标的角度变化。自适应的空间掩码选择机制则让深度特征中可以包含适当比例的背景信息,进一步抑制模板图片背景中可能存在的干扰物。最后,部分保留的更新机制的引入,使跟踪器能进一步应对目标外观的逐渐形变。
基于二阶段免锚定框的对位置敏感的精准定位孪生全卷积网络跟踪器主要解决的是现有模型不够高效的问题。免锚定框二阶段回归器的引入,让模型具备边框回归能力的同时,节省了锚定框的分类与回归所需要的大量参数。更优的训练策略,不仅为该框架第一阶段的定位提供了准确的位置基础,还为目标跟踪领域贡献了一种新的基线模型。最后,对位置敏感的卷积模块让堆积在骨干网络上的层在增强特征表达能力的同时,不会损失特征的定位精度,这一举措进一步提升了跟踪器的性能。
本论文在多个数据集上对上述框架进行了大量充分而又详细的实验。实验表明,本论文提出的若干框架能远好于其它大多数的实时跟踪器。这些实验结果进一步体现出本文提出的所有新框架的有效性与先进性。
尽管这种跟踪框架取得了巨大的成功,但其本身仍然存在三个方面的限制影响其发展:
第一,现有模型不够稳健。当目标有明显外观变化或者在背景处有其它外观相似的干扰物时,现有模型易受到干扰物的影响,从而使得跟踪器无法稳健地跟踪;当模板中目标附近有显著物体存在时,现有模型缺乏对当前视频的适应,从而使得跟踪器无法稳健地聚焦在被跟踪的目标上。
第二,现有模型不够准确。当被跟踪目标有较大的角度旋转时,现有模型不能准确地输出精准的标定框;当目标尺寸比例异常时,现有模型无法准确地选择特征作为目标的模板。
第三,现有模型不够高效。当模型使用锚定框分类和回归机制来预测目标形状变化时,现有模型需要一个更复杂的头部网络,模型的参数没有被高效利用;当增加骨干网络的深度时,跟踪器性能的改善并不明显,模型更高的表达能力没有被高效利用。
本论文针对现有模型存在的上述问题,提出了三个方案对其进行改进:基于语义特征的双重孪生全卷积网络跟踪器、基于角度估计以及空间掩码的更优匹配孪生全卷积网络跟踪器和基于二阶段免锚定框的对位置敏感的精准定位孪生全卷积网络跟踪器。
基于语义特征的双重孪生全卷积网络跟踪器主要解决的是现有模型不够稳健的问题。语义特征的融入不仅使得该框架对于目标的形变具有更高的概括能力,还能抑制背景中外观相似但语义上完全不同的物体响应的大小,而原本就有的外观特征让跟踪器仍然保持足够的区分力。注意力机制的引入,让模型能够根据目标的上下文背景信息自适应地判断当前通道特征的重要程度,增强与目标相关的通道,抑制与背景相关的通道,使得跟踪器在跟踪时能对目标有一定程度的自适应能力。最后,多层次特征机制的引入则进一步提升了模型性能。
基于角度估计以及空间掩码的更优匹配孪生全卷积网络跟踪器主要解决的是现有模型不够准确的问题。角度估计机制的引入让该框架不仅能跟踪目标位置和大小的变化,同时还能让模型跟踪目标的角度变化。自适应的空间掩码选择机制则让深度特征中可以包含适当比例的背景信息,进一步抑制模板图片背景中可能存在的干扰物。最后,部分保留的更新机制的引入,使跟踪器能进一步应对目标外观的逐渐形变。
基于二阶段免锚定框的对位置敏感的精准定位孪生全卷积网络跟踪器主要解决的是现有模型不够高效的问题。免锚定框二阶段回归器的引入,让模型具备边框回归能力的同时,节省了锚定框的分类与回归所需要的大量参数。更优的训练策略,不仅为该框架第一阶段的定位提供了准确的位置基础,还为目标跟踪领域贡献了一种新的基线模型。最后,对位置敏感的卷积模块让堆积在骨干网络上的层在增强特征表达能力的同时,不会损失特征的定位精度,这一举措进一步提升了跟踪器的性能。
本论文在多个数据集上对上述框架进行了大量充分而又详细的实验。实验表明,本论文提出的若干框架能远好于其它大多数的实时跟踪器。这些实验结果进一步体现出本文提出的所有新框架的有效性与先进性。