论文部分内容阅读
目标跟踪是计算机视觉领域中一项重要的研究任务,其在自动驾驶、人机交互、安防监控和现代化武器装备等民生领域及国防军事领域具有广阔的应用前景。近年来针对单目标跟踪问题的研究取得了很大进步,深度学习在解决目标跟踪问题上的能力也得到了充分验证。但是与单目标跟踪相比,在自动驾驶和安防监控等真实场景下,行人多目标跟踪显然更符合现实需要。然而,目前针对行人多目标跟踪问题的研究还存在很多挑战。第一,目前基于深度学习的多目标跟踪方法需要很长的训练时间,导致对跟踪模型效果的验证周期长,限制了研究者从模型结构方面改进跟踪算法;第二,不同于单目标跟踪,行人多目标跟踪研究还面临着待跟踪目标数量不确定、目标相互遮挡、行人姿态变化等一系列的问题,影响算法准确度;第三,目前主流的跟踪系统通常由一个用于目标定位的检测模型和一个用于提取目标关联特征的特征提取模型组成,导致跟踪系统体积大、运行效率低,不能在车载主机或安防监控设备中部署。因此,如何在现有技术基础上构建出具有高准确度、高可用性的多目标跟踪算法具有重要研究意义。本文主要研究了基于深度学习的多目标跟踪算法,分别从网络结构和数据关联策略两个部分对现有跟踪算法进行研究改进。本文的主要研究工作如下:(1)提出了一种基于TTFNet的目标检测与嵌入特征提取模型,用于行人多目标跟踪。为了提高跟踪模型的训练效率,该方法在目标检测模型TTFNet的基础上,利用多任务学习技术,设计了一个新的单阶段跟踪模型,同时训练目标检测和特征提取两个任务。相比于现有单阶段跟踪模型,该模型的训练效率更高,并且其跟踪准确度也同样具有竞争力。(2)提出了一种基于视觉显著性特征辅助关联的行人跟踪方法,记作Fair VF。针对现有的单阶段跟踪模型不能有效提取目标的强区分性特征,从而导致其在遮挡场景出现时会存在大量目标被跟踪错误的问题,本方法设计了一种新的数据关联策略。该方法联合利用目标的运动特征、嵌入特征和视觉显著性特征等多维特征数据来增强目标间的区分性,提高数据关联的准确度,降低跟踪过程中目标错误匹配情况发生的次数。(3)提出了一种融合遮挡特征的双层行人多目标跟踪网络。为了将本文提出的Fair VF方法中的两个分离的模型合并到一起,本方法在Fair MOT的基础上,设计了一种双层结构的单阶段跟踪网络,利用双层结构分别提取目标的完全特征和遮挡特征用于跟踪任务学习,提高网络对目标强区分性特征的提取能力。并且,我们在网络中引入卷积注意力模块用于解决多任务联合训练中存在的特征偏向问题。最后,在MOT17数据上的测试结果验证了基于该网络的跟踪方法的优越性,其MOTA指标得分74.3%,IDF1指标得分74.8%,IDSW指标更是相比于Fair MOT降低了21.49%。