论文部分内容阅读
基于视频分析的行为检测旨在通过计算机视觉技术和机器学习的方法在视频的空域和时域中对感兴趣的行为进行定位和识别。行为检测可以广泛地应用于很多场合。类似机场、车站、学校等公共场所中,都需要行为检测技术来帮助管理人员将各种风险降到最低。本文针对行为时空域定位难和行为识别难的问题展开研究,主要包括基于行人轨迹的行为检测方法研究和基于3D检测模型的行为检测方法研究,具体工作如下:第一,针对行为包含于行人轨迹的特性,本文提出了基于行人轨迹的行为检测方法。本文首先使用微调后的Faster R-CNN模型实现行为在空域中定位。其次,为了确保行为的时间一致性,采用最小距离匹配的多目标跟踪方法获得行人轨迹。然后使用时域上的多尺度滑动窗口从行人轨迹中生成候选行为。最后将候选行为输入到一个全连接神经网络完成行为识别任务,其中候选行为的特征通过双通道卷积神经网络获得。与其他行为检测方法对比,实验结果表明本文提出的基于行人轨迹的行为检测方法能够实现较准确的行为检测。第二,针对行为属于3D目标的特性,本文提出了一种3D检测模型。该模型由候选行为路径网络(Tubelet Proposal Network,TPN)和行为路径卷积神经网络(Tubelet Convolutional Neural Network,TCNN)组成。基于该3D检测模型,本文进一步提出了的对应的行为检测方法。第一步,输入一段原始视频和锚点区域(anchor)立方体到TPN中提取视频片段中每一帧图像的深度特征。然后采用回归的方法对anchor进行修正,同时判断anchor立方体是否包含行为,并输出包含行为的行为路径。第二步,同时输入原始视频、光流视频和行为路径到双通道TCNN中分别提取行为的外形特征和运动特征,并对其进行融合。然后采用回归的方法对行为的空域位置再一次修正,并估计行为路径的行为类别。第三步,使用动态规划的方法将行为路径在时域上关联起来实现行为在时域中定位。第四步,根据行为路径的行为类别估计结果,从而实现行为识别。与基于行人轨迹的行为检测方法相比,该方法直接生成行为路径,省去跟踪步骤并实现可靠的行为检测。