论文部分内容阅读
目标跟踪技术作为计算机视觉领域的研究内容之一,在各个领域都有着广泛的应用。目前已经提出了许多基于卷积神经网络(CNN)的跟踪器,此外能够捕获顺序数据之间的长期依赖关系的递归神经网络(RNN)也被引入到了计算机视觉领域。多域卷积神经网络(MDNet)是一种基于多域CNN架构的在线跟踪方法,它对候选区域进行采样,通过在大规模数据集上预训练CNN,并在测试视频的第一帧微调。但由于该算法中每个候选者都是独立处理的,因此在时间和空间方面具有很高的计算复杂度,其算法的运行速度较慢。另外,MDNet是基于CNN建立并将跟踪任务视为分类问题,其重点主要集中在类间分类上,而在存在干扰物的情况下,MDNet很有可能将对象和背景进行错误分类。本文就针对MDNet存在的这两点进行研究,并提出一种新的基于MDNet的跟踪算法,本文主要工作从以下几个方面展开:(1)基于RoI Align的网络结构改进:原始MDNet在提取被跟踪目标特征时是先产生候选区域,然后用候选区域在原图上扣图提取特征,导致计算复杂度较高。针对该问题,本文提出了新的算法MD-RA,采用RoI Align特征提取方式,使用双线性插值加快特征提取速度。由于RoI Align自身在提取特征时比较粗糙而丢掉一些有用信息,故MD-RA在使用RoI Align时根据前后RoI宽度重新调整RoI Align计算时单元大小。另外,通过移除最大池化层,使用扩张卷积的方法增大特征图上每个点感受野的方法来增强特征图的表达能力。本文改进后使得MD-RA在OPE精度和成功率上相比于MDNet降低了3.3%和1.6%,但是在跟踪速度上提升了大约9.2倍。(2)在MDNet的基础之上融合RNN特征:MDNet是基于CNN建立的,存在类似目标对结果产生较大干扰的问题,而RNN可以在序列数据中捕获目标前后帧的长期依赖关系。针对该问题,本文引入RNN对目标物体的自身结构信息进行建模,然后融合被跟踪目标物体的RNN特征和CNN特征,以此加强跟踪网络对被跟踪目标与类似干扰物之间的判别能力。(3)损失函数的改进:原始MDNet中只有一项二分类损失,抗干扰能力较弱。针对该问题,本文引入一个新损失项,该损失项的作用是让在不同域中的目标在共享特征空间中彼此远离,并且能够在新测试序列中学习在当前域中看不见的目标对象的判别表示,以此来提高MDNet对类似干扰物的鉴别能力。在上述改进的基础上,提出了新算法IMP-MD。通过实验验证,IMP-MD在OPE精度和成功率上相比于MD-RA提升了3.7%和2.0%,在速度上相比于MDNet提升了7.8倍,具有较高的应用价值。