论文部分内容阅读
随着视频采集设备的成本不断降低,其普及率越来越高,使得各种来源的视频数量正在急速增长。如何解放人力利用机器对视频进行自动分析存在迫切需求。目标跟踪作为视频自动分析系统的关键,对理解视频内容、分析并识别目标属性起着重要作用,因此一直是学术界和工业界关注的研究课题。由于实际场景中存在诸多干扰因素,如目标和场景的动态变化、背景中相似物的干扰、目标的变形遮挡、尺度变化和旋转、以及运动模糊和噪声等,目前设计稳定可靠的跟踪器仍然是具有挑战的任务。心理学研究表明,人的视觉系统存在选择注意机制,使我们在处理视觉信息时能够排除干扰,快速有效地从场景中筛选出感兴趣对象信息。这种数据的筛选能力能够极大地提高信息处理的效率。因此,本文基于人眼的视觉注意机制,开展了基于显著性的目标跟踪研究。本文首先对视频显著性检测问题进行研究,然后研究了目标跟踪中的外观建模与特征关联匹配问题,最后从人眼的视觉注意机制入手,研究结合显著性检测的目标跟踪算法,以期提升跟踪性能。本文主要的研究内容和创新点包括如下几个方面:第一,针对视频中待跟踪目标的自动获取问题,本文提出了基于底层视觉特征的视频显著性检测方法。该方法首先检测空间显著性和时间显著性,然后通过运动熵将二者动态融合。空间显著性检测考虑三个因素:像素的空间位置,双对比色和相似性分布。时间显著性检测利用光流特征计算运动的全局对比度。为了抑制场景中的运动噪声提出一种平均光流直方图(HOAOF)方法。相比于传统的视频显著性检测方法,当存在摄像机和显著对象同时运动时,本文方法依旧能得到较好的检测结果。第二,针对场景中底层特征无法反映由高层语义对象驱动的视觉显著性问题,本文提出结合底层和高层特征的视频显著性检测方法,并以新闻视频为例研究了特定类型视频中的高层语义特征对显著性检测的影响。其中自下而上注意力模型利用底层的视觉刺激,采取局部和全局相结合的方式检测图像显著谱和运动显著谱。在检测图像显著谱时引入四元数图像的概念,提出一种多尺度多颜色通道的四元数图像显著性检测方法。在自上而下的注意力模型中通过检测视频图像的通用高层语义特征(如人脸、行人和车辆),以及新闻视频中特有的高层特征(如播报员和闪光灯),生成自上而下的显著谱。最后,将自下而上显著谱与自上而下显著谱融合得到视频显著谱。通过结合高层语义特征,本文方法能够获得和人眼更相近的检测结果。第三,针对跟踪过程中的目标遮挡、旋转和尺度变化等挑战,本文提出基于一致性特征点选择的目标跟踪方法。该方法利用特征点构建目标外观模型,在跟踪过程中采用空间几何约束定义特征点的一致性,然后通过一种改进的密度聚类方法选择与目标一致的兴趣点。另外为了适应跟踪过程中目标外观的变化,本文还采用颜色直方图作为目标的参考模板,用于计算跟踪结果的置信度,然后据此更新目标的外观模型。该方法能够克服目标旋转和尺度变化,而且在发生部分遮挡甚至完全遮挡时也能够重新跟踪到目标。第四,针对特征点在低质量图像以及平坦图像区域上检测和匹配存在可靠性下降的问题,本文提出基于一致性判别区域的目标跟踪方法。该方法首先采用基于样例的SVM选择出具有高判别性的区域,利用这些判别区域对跟踪目标的外观进行建模,然后对这些判别区域分别进行相关滤波跟踪,在跟踪过程中计算每个判决区域的一致性。本文根据两点要素定义判别区域的一致性:可跟踪性和预测能力。根据一致性对跟踪器和区域外观进行自适应更新,并用于最终目标的全局定位。实验结果显示,利用一致性的判别区域进行目标跟踪能够有效提升跟踪器的性能。第五,针对单一外观模型和固定特征难以适应目标在复杂场景中面临的外观变化问题,在本文视频显著性研究的基础上,提出一种显著性特征加权的目标跟踪方法。该方法在目标外观构造上采用两种模型的融合,一种是结构保持的统计外观模型,另一种是自适应显著性特征统计外观模型。其中在构造显著性外观模型时,能以在线的方式自动选择有判别性的显著性特征。目标跟踪是在粒子滤波框架下进行,样本粒子的权重通过融合两种观测模型与参考模型的似然性计算得到,其中融合权值会根据两种外观模型的似然性动态调整。该方法构造的外观模型能够有效利用显著性特征改善跟踪效果。