论文部分内容阅读
视频内容的理解和分析是计算机视觉领域研究的热门问题之一,在公共安全、自动驾驶以及人机交互等多个领域都有着广泛的应用前景。本文围绕监控视频中行人感知与分析中的关键问题展开研究,分别对视频中个体和群体的行为进行分析。从个体行为的角度,利用运动目标检测和目标跟踪将行人从视频序列中分别分割出来,进而使用行为识别模型进行分类;对于群体行为,通过人数统计模型对视频帧的人群密度进行估计。基于该研究思路,本文着重研究了运动目标检测、目标跟踪、行为识别以及人数统计等四个方面内容。主要研究内容和创新点概述如下:(1)构建了一种基于自适应效能样本的目标检测模型。目前基于样本的检测方法均假设每个样本具有等同的重要性,这使得在模型更新的时候易于错误更新有效样本,从而导致较低的准确率。为此,本文提出用可变的权重去衡量样本的重要性,并用效能去评估样本的活动性,进而使得模型可以简单有效地识别有效样本。为了快速适应场景的变化,本文又提出了一种新的更新策略:首先提出了一种最小权值更新策略以避免有效样本错误的更新;其次提出了奖励惩罚权重策略以加强正样本的权重并惩罚其他的样本;最后提出了定量的空间传播机制以减少鬼影等噪声的影响。此外,还将自适应反馈技术引入到所提的算法中以适应更具挑战性的视频序列。最终的实验表明本文的方法在CDNet数据库上要优于其他先进的方法。(2)提出了基于自相关表示的目标跟踪模型。稀疏表示在视觉跟踪中是一个极具影响力的模型,其探究了所有候选对象与观测模板之间的关系。这种表示方法是单向的,因而当噪声样本更新到模板中时,模型并不能发现并降低噪声的影响。为此,本文构建了一种基于自相关表示的目标跟踪模型,旨在降低内部噪声和外部干扰对跟踪的影响。首先,从高度相关的样本中学习一个低维子空间表示对目标进行建模。其目的是消除冗余信息,减少噪声样本的影响。然后用子空间本身来表示子空间,从子空间向量中学习内部的潜在关联特征。为了进一步提高模型的识别能力,提出了一种同时考虑误差分布和异常值的新观测模型。最后,实验结果表明了所提跟踪方法的有效性并在一些挑战性的视频序列上取得了良好的跟踪效果。(3)建立了一种基于双路3D卷积网络的行为识别模型。标准的3D卷积网络昂贵的计算成本和巨大的内存需求阻碍了其在实际场景中的应用。为此,本文提出一种新颖的双路三维卷积网络,由粗分支和细分支两个分支组成。粗分支通过快速的时间降采样策略保持大的时间感受野,并使用更有效的空间卷积和时间卷积的组合来近似昂贵的三维卷积。细分支在时间域内渐进对视频降采样,并采用通道较少的3D卷积层来捕获多分辨率时空信息。这样设计的关键思想是避免使用昂贵的3D网络来处理所有的时空特征,仅用于需要细粒度时空识别的模式。其他模式估计将由粗分支处理,因此可以减少3D卷积子网的容量需求。这两个分支不是独立学习的,而是共享一个浅时空降采样模块,进而实现高效的低层次特征学习。此外,采用横向连接模块在多个阶段可以有效地融合来自两个分支的信息。最后,在实验中所提网络模型是从零开始训练的,在单个NVIDIA GTX 1080Ti卡以4559 FPS的网络推理速度在三个具有挑战性的视频数据库上实现了极具竞争力的结果。(4)提出了一种基于掩膜感知深度网络的人数统计模型。主流的基于回归的人数统计模型直接对高斯密度图进行回归,这通常会增加网络的学习成本并降低其预测的准确性。网络回归模型往往通过估计由对象位置注释生成的密度图来解决人群计数问题。根据密度图的性质,它的值有两种可能的状态:零表示周围没有对象,非零表示对象存在。基于此,本文使用了一个专用的网络分支来预测目标/非目标掩模,然后将其预测与输入图像相结合生成密度图。这样做的基本原理是掩模预测可以更好地建模为一个二值分割问题,如果已知掩模,则可以降低网络进行密度估计的难度。本方案中的关键问题是如何将掩模预测融合到密度图估计中。为此,本文研究了五种可能的解决方案,通过分析和实验验证确定了最有效的解决方案。最后,实验结果验证了所提方法的有效性,并在三个公开数据库上均达到了先进的水平。