论文部分内容阅读
由于视频行为识别在视频监控、行为分析等领域的广泛应用,最近几年引起了学术界的广泛关注。面对视频的尺度变化、视角变化和相机移动等问题,如何设计出能够描述行为信息的有效特征显得至关重要。随着深度学习技术在图像领域的成功应用,很多深度学习方法被扩展到视频行为识别中。但是相对于图像,视频中包含的时序结构信息对于行为识别至关重要。针对长时时序建模,本文着重研究了时间分割网络(Temperal Segment Network,TSN)的非修剪视频处理、时序信息补充以及光流实时构造三个方面的问题。本文主要工作如下:1.对视频行为识别任务的相关工作进行了综述和回顾,分别介绍了几种典型的人工行为特征表示和深度学习行为特征表示方法,着重分析了其视频时序结构建模的思路。2.介绍了行为识别著名的深度学习框架TSN并针对非修剪视频的预测提出了一种多尺度滑动窗口集成方法。在原始双流卷积神经网络(Convolutional Neural Network,CNN)的基础上,TSN通过分割稀疏采样和信息聚合对视频长时时序结构进行建模,可以很好地表达长时时序结构信息。针对非修剪视频的预测,本文提出了多尺度滑动窗口集成方法,通过多尺度覆盖和Top-K池化可以很好定位行为以及抑制背景的影响。实验结果表明,本文提出的多尺度滑动窗口集成方法可以有效对非修剪视频进行预测。3.提出了四流TSN网络。为了进一步刻画视频动态变化信息,本文基于动态图像对时序变化的表达能力,构造了四流TSN网络。动态图像将包含于视频所有帧间的运动信息表示为单个RGB图像,是一个高效且简单的视频表示,对于深度学习算法特别有效。因此本文在原有的静态图像和光流基础上,通过动态图像分别对其处理生成动态图像和动态光流两个新的流。实验结果表明,新增的两个流与原来的两个流性能上相互补,可以带来准确率的提升。4.提出了实时TSN网络(Real Time TSN,RT-TSN)。针对原始TSN光流计算时间长以及存储需求大的缺陷,本文首先基于无监督光流学习法构造光流网络,然后将光流网络叠加到TSN框架的时间流网络,由此形成的RT-TSN不仅可以端到端训练,还可以实现实时预测。实验结果表明,RT-TSN在损失极小精确度的同时提升了TSN的速度。