论文部分内容阅读
作为计算机视觉领域的一个重要研究方向,目标跟踪的主要任务是在给定待跟踪目标初始位置的情况下,在视频的后续帧准确可靠地预测目标的位置和大小。目标自身的形变或外部环境的变化容易导致目标的跟丢或跟错。为了应对各种挑战场景下的跟踪问题,本文对基于孪生网络和相关滤波器的目标跟踪算法进行了研究与改进。本文的主要工作如下:本文提出了一种基于相关滤波器的高置信度更新目标跟踪算法,以实现对目标的跟踪。首先,提出了将加权的历史帧目标图像代替上一帧目标图像,引入到GOTURN网络模型中;然后提出了一种目标置信度指标,其可以运用于任何一种相关滤波类跟踪算法进行模型的高置信度更新;最后,将enhanced GOTURN和核相关滤波算法融合成一种新的算法。融合方法是首先进行两种算法的跟踪,然后用核相关滤波在enhanced GOTURN跟踪结果框中进行目标再检测,最后计算两次核相关滤波算法预测结果的置信度,选择置信度更高的预测结果作为跟踪结果。融合算法不仅能充分利用离线学习的网络模型的鲁棒性,而且能够有效减少分类器与外观模型的漂移,因此可以有效应对遮挡,形变,旋转等挑战性因素。本文在OTB100数据集上进行实验测试,距离精度和重叠精度可以达到0.748和0.620的优异性能。此外,本文还提出了一种基于感知干扰学习的trip-CFNet跟踪算法。Trip-CFNet算法由第一帧分支,模板分支和检测分支组成,对跟踪视频的第一帧目标、上一帧目标和当前帧搜索区域特征分别进行卷积,然后将模板分支与第一帧分支的卷积特征分别经过各自的相关滤波网络层提取表观模型特征图,将两个表观模型特征图分别与检测分支的特征图进行交叉相关,得到两个响应图。这种创新的网络结构能够兼顾目标初始状态和即时变化状态,使得网络鲁棒性更强。最后计算响应图的置信度,并用置信度对两个响应图进行加权融合,同时相关滤波层中网络参数根据置信度进行高置信度更新,减少了外观模型与分类器的漂移。本文还提出对trip-CFNet网络进行感知干扰学习,使得网络能够区分类内干扰。通过OTB100数据集上的实验结果表明,trip-CFNet算法的距离精度和重叠精度分别为0.751和0.620,相对其baseline算法相比,分别提高了0.036和0.034。