论文部分内容阅读
视频跟踪作为重要的计算机视觉任务,是指对视频序列中的目标状态进行持续推断的过程,其任务在于通过分析视频实时序列的最新信息,估计目标在每一帧的瞬间位置区域,从而构建目标的运动轨迹,并进一步更新记录目标的状态。视频跟踪技术在军事和民用方面都有着十分广泛的应用,军事方面包括无人飞行器、精确制导、空中预警、战场监视等;民用方面包括移动机器人、智能视频监控、智能交通系统、人机交互、虚拟现实等。跟踪可定义为估测物体在一个场景中运动时,在视野窗口平面所生成的轨迹,即视频跟踪体系需要为图像序列里不同帧的同一目标分配相同的标签。伴随数码相机,智能手机等设备的普及,对视频自适应分析的需求有增无减,人们也把越来越多的目光投向目标跟踪方向。视频跟踪技术是指在视频的图像序列中,对感兴趣的、与背景存在相对运动的目标进行检测,并采取合适的算法来定位目标在连续图像中的位置,从而找出目标的运动轨迹。视频跟踪的前提是视频目标检测,目标检测是将运动目标从视频中分割提取出来的技术。目标检测是计算机视觉技术的基础,为面向对象的视频编码、目标跟踪、运动参数提取等后续工作提供后续保证。然而,由于摄像机和背景运动所带来的遮挡、形变、背景杂斑、尺度变换等干扰,多目标跟踪这一领域的研究变得尤其困难。与此同时,在后续的数据关联中,传统的光流特征或颜色特征并没有得到令人满意的结果。本文通过构造一个条件随机场(Conditional Random Field,CRF)模型,将在线多目标跟踪问题进行分解,通过构造多种势能函数将目标跟踪问题转化为全局能量最小问题。与此同时,结构信息和深度外观特征的结合运用使得数据关联更加准确。由此我们就可以将新的视频帧检测与过去生成的目标轨迹紧密联系起来。在目标检测阶段,首先通过基于深度学习的Faster RCNN网络提取出高精度的目标选框。由于Faster RCNN已经将特征抽取、候选框提取和边界框回归修正都整合在了一个网络中,使得综合性能有较大提高,在检测速度方面尤为明显。在目标跟踪阶段,首先对于目标特征描述子,主要利用基于相似性度量学习的深度特征提取方法,将扩增后的正负样本图像投射到公共特征空间,并使视频帧序列里同一目标特征向量的投影在这个空间中距离较近,而不同目标特征向量的投影在这个空间中距离较远。随后,结构信息被用作初始的数据关联,利用所跟踪目标之间的相对位置不变性来克服因运动所带来的局部变化,从而得到多个可能的数据关联方案。最后,本文在线性链条件随机场结构下,提出一种基于轨迹全局能量最小的模型,以此构建损失函数来对所提出数据方案做进一步的约束,从而实现目标跟踪。最终本文将基于条件随机场的目标跟踪方法分别在静态背景数据库ADL-Rundle-3,KITTI-16,PETS09-S2L2,TUD-Crossing,Venice-1和动态背景数据库ADL-Rundle-1,ETH-Crossing,KITTI-19等数据库上进行了实验验证,实验结果表明所提出的基于条件随机场的多目标跟踪算法能够在各种任务中达到较好的跟踪效果。