论文部分内容阅读
长期以来,视觉目标跟踪技术一直是计算机视觉领域的一个热门的研究点,其广泛应用于视频监控、驾驶辅助、人机交互等场景。随着国家“平安城市”、“3111工程”等项目的提出,除了对安防监控设备的需求大增,同时获得的视频数据也呈指数级增加。如何充分发掘视频中的信息成为研究的重点,而基于视觉的目标跟踪技术是关键的基础技术之一;同时,在研究自动/辅助驾驶技术的热潮中,目标跟踪技术在其中也扮演着关键的角色。然而,由于现实生活场景较为复杂,干扰情况较多,对跟踪算法的实时性要求较高,传统的目标跟踪算法至今没有大规模的商用。近年来,由于卷积神经网络在其他计算机视觉研究方向中取得了巨大的成功,越来越多的研究人员尝试将卷积神经网络应用于目标跟踪算法。然而,目前基于卷积神经网络的目标跟踪方法存在的主要问题有两个:一是高速与高性能难以兼得,二是缺乏合适的训练方法。因此,本文提出了一种基于孪生网络的多尺度自更新的单目标跟踪算法。本文主要的工作如下:(1)针对卷积神经网络的特点,使用性能更加优秀的基础网络用于提取特征,同时融合不同网络层次的卷积特征,加强特征对表达目标的能力;(2)本文还使用了特征金字塔替代了图像金字塔进行多尺度检测,增强了算法在目标尺度快速变化时的性能;还将基于区域提名的稀疏搜索和位置回归网络嵌入卷积神经网络,增加了模型定位的精度并减少了滑窗搜索带来的计算冗余;(3)提出了一种跟踪结果置信度评价指标,用于自适应间歇更新模板图像。该策略不仅使模型能够学习到目标的变化,同时避免带来因更新带来的计算负担;(4)修改了网络前向传播前图像块的提取方式,减少了目标形变和过多背景对算法精度带来的影响。同时扩大了搜索区域,增加对小目标的跟踪能力。(5)针对训练集和训练方法缺失的问题,通过提取大量的训练图像对来构建训练集,用于辅助模型训练。经过实验测试验证,该算法相比baseline算法SiameseFC,在OTB2013上跟踪成功率由0.612提升至0.687,精度由0.815提升至0.894,同时在GPU上的速度仍能基本保持实时(27FPS);并在相似物干扰、复杂背景等情况下的跟踪成功率提升明显。