论文部分内容阅读
视觉目标跟踪是计算机视觉的一个重要组成部分,被广泛应用于视频监控、人机交互、导航定位、军事和航天等领域。在计算机视觉领域,许多图像分析方法让机器接近达到了人类的水平,在此基础上,研究者们开始关注视频信息处理与分析。目标跟踪能够将视频数据结构化,并分析视频中信息的连续变化规律。目标跟踪的发展对视频领域的发展有推动作用。目标跟踪主要研究的是对未知场景未知目标,给定初始帧中目标状态,预测接下来每一帧中目标状态的理论和方法。跟踪场景和目标是多样的,且随时间变化,目标跟踪方法需要具备鲁棒性和自适应性,能用于各种复杂环境,能适应目标与环境随时间的变化。另外,为了实际应用目标跟踪方法,要求其具备实时性。目标跟踪过程中会遇到的主要挑战有光照变化、尺度变化、遮挡、形变、运动模糊、快速运动、内平面旋转、外平面旋转、出视场、背景干扰和低分辨率等。目标跟踪算法的流程一般包括运动模型、特征提取、观测模型和跟踪预测四个步骤。运动模型是预测目标在新一帧可能出现的位置,生成候选目标集。特征提取是提取目标及候选目标的特征,描述物体信息。观测模型是评估候选目标与目标的匹配程度。跟踪预测是用观测的结果预测目标状态。对于跟踪目标,背景信息是一把双刃剑。一方面是干扰目标定位,在跟踪时抑制背景信息能避免把背景误认为目标;另一方面是帮助定位目标,利用目标周围的背景推断目标位置。本文从运动模型、特征提取、观测模型和跟踪预测四方面研究目标跟踪中背景信息的抑制和利用方法,构建了一套完整的有选择地利用背景协助跟踪的体系。主要研究内容如下:第一,提出了目标与背景协同建模的长短期运动模型。该模型分割目标与背景,对目标与背景分别进行跟踪,再对各自的跟踪结果协同建模,学习目标与背景之间关系随时间变化的规律。短期运动模型在较大局部区域内预测目标运动,并评估目标跟踪的稳定性。当短期跟踪稳定性下降时,长期运动模型在全场景生成数个目标可能出现的候选区域。短期运动模型使普通跟踪器在更大范围内跟踪目标,能够解决快速运动问题;长期运动模型在目标丢失后全图重新检测目标并恢复目标跟踪。实验结果表明,提出的目标与背景协同建模的长短期运动模型能够解决目标丢失问题,对长时间视频中的目标跟踪取得良好效果。第二,提出了结构性优化卷积网络的目标与背景特征提取方法。该方法由通道选择的主成分分析(Principal Component Analysis with Channel Selection,PCACS)降维方法,使用目标变化背景输出(Target Variation and Background Output,TVBO)代价函数的通道选择方法和单样本权值重建方法等三个部分组成。PCACS综合考虑特征图信息量和跟踪误差,从最后一个卷积层获取优秀低维特征。最小化TVBO能够选出代表性的通道,保持目标部分信息基本不变,使背景部分输出信息变小,优化网络结构。单样本权值重建方法重新学习裁剪后网络的权值,降低目标信息损失。实验结果表明,结构性优化的网络具有较强的目标背景区分能力,可以提高跟踪精度和速度,降低计算资源需求。第三,提出了多层背景自适应相关滤波观测模型。相关滤波方法(Discriminative Correlation Filter,DCF)在视觉跟踪中展现了优越的精度和较高的效率。DCF中的上下文是指目标周围一定范围内的背景,具有两个作用,一个是干扰目标定位,另一个是为目标定位提供线索。该模型首先构造上下文金字塔来表示目标与背景之间的关系。然后提出上下文自适应空间窗格方法,控制金字塔每一层中上下文信息在DCF学习中发挥的作用。上下文自适应空间窗格可以抑制背景的干扰,使目标更容易被跟踪。最后,用上下文金字塔的多层结构,根据环境自适应地选择合适的背景对目标定位。实验结果表明,即使使用传统特征,提出的多层上下文自适应相关滤波观测模型取得了与深度学习方法相似的跟踪精度,同时满足实际应用的实时性。第四,提出了基于背景中辅助目标的跟踪预测方法。在目标的动态背景中存在有利于目标跟踪的信息。使用辅助目标来描述目标的动态背景,在跟踪目标的同时建立辅助目标与目标之间的运动依赖关系。用多个辅助目标预测目标的位置,将辅助目标预测结果与目标跟踪器预测结果融合得到目标位置。基于辅助目标的目标跟踪方法可以与其他目标跟踪器结合,具有推广泛化能力。实验结果表明,辅助目标在目标预测中发挥了重要作用,与其他目标跟踪方法对比结果表明,有更好的鲁棒性和目标跟踪精度。最后对背景信息抑制与利用方法在目标跟踪中各个环节发挥的作用与特点进行了分析。本文针对目标跟踪问题,从运动模型、特征提取、观测模型和跟踪预测四个方面研究背景信息在目标跟踪各组成部分中发挥的作用。提出的方法组成了完整的目标跟踪框架,提高了目标跟踪的鲁棒性、自适应性和实时性。