论文部分内容阅读
视觉目标跟踪是计算机视觉领域的研究热点之一,特别是在人工智能飞速发展的今天,目标跟踪作为衔接底层图像处理和高层语义理解的关键技术被广泛应用于人机交互、智能交通、视频伺服、视频压缩和无人驾驶等诸多领域。在过去的几十年间,研究者们已经提出了许多行之有效视频目标跟踪方法,推动该领域取得明显进展。然而,由于被跟踪目标所处环境的复杂性和目标本身的多变性,使得目标跟踪技术仍然是一个复杂的开放性研究课题,距离实现真正的工业级应用仍有诸多问题需要进一步研究,特别是复杂场景下实现长时间目标跟踪仍旧是一个十分具有挑战的问题。因此,本文在传统目标表观模型建模的基础上,结合该领域的前沿学术成果,围绕复杂环境下鲁棒目标跟踪方法展开深入研究,提出一系列有效的新方法,旨在提高复杂环境下目标表观模型的鲁棒性,提升跟踪精度和跟踪效率。本文的主要工作和成果如下:1.针对复杂环境下的长时间鲁棒目标跟踪,提出基于超像素和词袋模型的跟踪方法,此方法利用目标前景、背景和深度信息联合估计目标置信度,然后在贝叶斯框架下实现目标状态估计。该方法首先通过超像素对目标前景和背景区域进行过分割,然后利用AP自适应聚类方法自动生成目标前景和背景字典,在局部特征、全局特征和深度特征三个层面分别估计目标置信度。最后利用稀疏表达的方法对目标模型进行更新,有效防止了目标模型退化,实现长时间跟踪。实验结果表明,该方法能够对被跟踪目标进行有效表观建模,实现了复杂场景下的目标长时间准确跟踪。2.为了实现多视角下的三维目标跟踪,提出采用多视角相机并结合深度传感器对三维场景进行标定,实现三维环境下被跟踪目标在多视角相机坐标系下的协同跟踪。区别于单目相机目标跟踪系统,该方法综合利用不同视角下的目标表观特征构建鲁棒的视觉模型,当被跟踪目标发生遮挡或者表观特征突变时,其他视角的相机可以对目标状态继续进行估计。该方法提供了一种多视角目标跟踪框架,可以方便地扩展为更多视角的跟踪需求。实验结果表明,所提方法能够在多视角下有效地建模目标表观模型,完成跨相机之间的三维目标跟踪,所提自适应模型更新策略能够有效缓解模型退化问题,适合长时间目标跟踪。3.针对当前基于深度学习的目标跟踪方法不能有效利用背景信息建模目标表观模型问题,将背景感知相关滤波器与深度学习进行有效融合,提出一种端到端的深度背景感知目标跟踪方法。首先,该方法把相关滤波器架构为深度学习网络中的一个特殊的卷积层,然后把目标前景与背景分别作为正、负样本输入网络进行训练,以扩大前景与背景图像目标响应图之间的距离。实验表明,所提方法能够有效压制目标背景的响应,提高目标图像的响应,有效利用背景信息建模目标表观模型,公开数据集测试结果表明该方法在原跟踪器的基础上显著提高了跟踪的准确率和成功率。4.针对深度学习特征存在信息冗余和维度灾难等问题,提出通过自适应聚类的方法分析特征图之间的内在关系,选取具有判别能力和代表性的特征进行目标跟踪。为了综合利用不同网络深度特征的表达能力,提出利用多层特征训练具有不同判别能力的跟踪器,然后通过在线学习的方式更新各个跟踪器的权重。实验结果表明,该方法在几乎不损失跟踪精度的情况下可将特征维度降低80%左右,显著提升了跟踪效率。