论文部分内容阅读
随着多媒体技术的迅速发展,包括图像、视频在内的视觉数据迅速增加,而这些海量的数据往往蕴含着大量有价值的信息,通过计算机视觉技术来分析这些信息可以让人类的生活更加便捷和安全。目标跟踪是计算机视觉领域中的经典任务之一,它旨在从任意一段视频中的一帧中指定一个物体,在后续的连续帧中推导出其位置。目标跟踪对于自动驾驶、安防系统等领域有着重大的应用价值。本文基于深度学习中的孪生网络对目标跟踪进行了深入研究,使得目标跟踪性能得到了三点提升:主干网络特征提取能力的提升、在有限训练资源下的跟踪能力的提升以及对目标的外观变化的适应能力的提升。主要工作以及相应的结论总结如下:
1.提出了基于多阶段训练的孪生网络跟踪算法。针对主干网络特征提取能力的提升的问题,本文改进了网络结构设计和网络训练的思路使得网络提取的特征更加适用于目标跟踪。在目标跟踪中搭建孪生网络时,其设计往往需要考虑网络加深带来的边际效应问题,并且由于目标跟踪对实时性要求很高,需要平衡网络模型大小与精度之间的关系,因此我们利用长短时跟踪模块的设计探究了更优的结构。此外,我们提出了一种多阶段的训练方法,在训练过程中使用不同时间间隔的帧对来分别训练网络的长时跟踪模块和短时跟踪模块,使得网络的特征提取更适用于目标跟踪,从而设计出更适用于目标跟踪的网络结构。
2.提出了基于动作选择机制的孪生网络目标跟踪算法。针对有限资源下提高跟踪能力的问题,本文提出了在孪生网络中嵌入步长可变的动作选择机制来高效、灵活地获取目标框。前一帧获取到的目标框利用动作选择机制选择一系列动作来获得当前帧的最优位置,在执行每一步前,先利用相似性度量判断是否需要更换步长,执行动作后,将动作集合过滤一遍以减小计算量,然后利用感兴趣区域池化来比较候选子区域的相似度,从而可以不依赖于大量训练数据推断出目标的准确位置。本文还与高斯采样、滑窗采样、回归等采样方式进行了比较,得出了动作选择机制的特点与差异,并在公开数据集上证明了本方法的优越性。
3.提出了基于多粒度外观表示的孪生网络目标跟踪算法。针对目标跟踪过程中的目标外观变化的适应性问题,本文提出了一种可实时更新的目标跟踪算法,将生成式模型和判别式模型整合在一起来分别提取语义特征和外观特征。在跟踪过程中,保持鲁棒性较高的语义特征不变,只更新外观模型。本文通过嵌入卷积块注意力模块来提高语义特征的质量,并设计了一种通过颜色直方图获取目标的多粒度的外观特征的方法,来准确地描述目标的实时变化。通过保留目标的最近外观选择性地更新外观表示池。本文还提出了一种选择性遍历的方法自适应地融合模型,基于栅栏算法来衡量多个模型在过去的可靠性,利用当前帧的漂移程度来衡量模型在当前的可靠性,通过选择性地遍历方法来整合两种指标预测最优位置。本文提出的方法可以在目标发生遮挡、形变等严重外观变化时保持很好的鲁棒性。
1.提出了基于多阶段训练的孪生网络跟踪算法。针对主干网络特征提取能力的提升的问题,本文改进了网络结构设计和网络训练的思路使得网络提取的特征更加适用于目标跟踪。在目标跟踪中搭建孪生网络时,其设计往往需要考虑网络加深带来的边际效应问题,并且由于目标跟踪对实时性要求很高,需要平衡网络模型大小与精度之间的关系,因此我们利用长短时跟踪模块的设计探究了更优的结构。此外,我们提出了一种多阶段的训练方法,在训练过程中使用不同时间间隔的帧对来分别训练网络的长时跟踪模块和短时跟踪模块,使得网络的特征提取更适用于目标跟踪,从而设计出更适用于目标跟踪的网络结构。
2.提出了基于动作选择机制的孪生网络目标跟踪算法。针对有限资源下提高跟踪能力的问题,本文提出了在孪生网络中嵌入步长可变的动作选择机制来高效、灵活地获取目标框。前一帧获取到的目标框利用动作选择机制选择一系列动作来获得当前帧的最优位置,在执行每一步前,先利用相似性度量判断是否需要更换步长,执行动作后,将动作集合过滤一遍以减小计算量,然后利用感兴趣区域池化来比较候选子区域的相似度,从而可以不依赖于大量训练数据推断出目标的准确位置。本文还与高斯采样、滑窗采样、回归等采样方式进行了比较,得出了动作选择机制的特点与差异,并在公开数据集上证明了本方法的优越性。
3.提出了基于多粒度外观表示的孪生网络目标跟踪算法。针对目标跟踪过程中的目标外观变化的适应性问题,本文提出了一种可实时更新的目标跟踪算法,将生成式模型和判别式模型整合在一起来分别提取语义特征和外观特征。在跟踪过程中,保持鲁棒性较高的语义特征不变,只更新外观模型。本文通过嵌入卷积块注意力模块来提高语义特征的质量,并设计了一种通过颜色直方图获取目标的多粒度的外观特征的方法,来准确地描述目标的实时变化。通过保留目标的最近外观选择性地更新外观表示池。本文还提出了一种选择性遍历的方法自适应地融合模型,基于栅栏算法来衡量多个模型在过去的可靠性,利用当前帧的漂移程度来衡量模型在当前的可靠性,通过选择性地遍历方法来整合两种指标预测最优位置。本文提出的方法可以在目标发生遮挡、形变等严重外观变化时保持很好的鲁棒性。