论文部分内容阅读
智能视频监控是利用计算机视觉和视频图像处理的技术,对视频序列进行自动化的智能分析。作为智能视频分析的重点,基于视频的行为识别是指从视频序列中提取描述动作行为模式的显著视觉特征,然后通过机器学习与模式识别等算法进行分类和理解,来实现视频目标的行为模式的识别,属于更高层次的视觉任务,是计算机视觉和模式识别领域中极具挑战性的一个研究课题。论文主要研究并且提出了基于双流卷积架构的时空残差网络以及相关的算法和技术,并结合实际工程的相关应用展开论述。论文研究了双流卷积网络和残差网络,前者在基于视频的人类行为识别任务中取得了极佳的效果,而后者已经作为一项新技术来训练极深的网络架构。论文详细介绍了这两种网络架构,并且设计和提出时空残差网络架构,该网络是以双流卷积网络作为基础架构,并利用在大规模数据库(用于图像分类任务)上预训练好的残差网络来初始化双流中的两路网络,从而在视频的行为识别任务中能充分利用基于海量图像的训练数据。论文研究了时空残差网络的双流之间的跨流残差连接。针对原始的双流架构中只允许独立的双流通过最后阶段融合各自的softmax预测来进行信息交互而导致无法对真正的时空特征进行学习的不足,论文提出了多种可行的跨流残差连接方式,并对各种连接方法进行了详细的对比实验和分析。论文研究了时空残差网络中的时序残差连接。尽管原始双流网络中在做预测时采用了小的时间窗口(10帧)并随后对整个视频片段取平均,但在现实情况下以更大的时间间隔来采样更为合适。因此为了给时空残差网络提供更大的时域支持,论文提出了特征恒等初始化的时序卷积(即一维时序卷积结合将特征的空间变换初始化为恒等映射的方式)来实现时序残差连接。还研究了在网路的层次结构中添加时域卷积的不同方案。首先,设计了在网络整体架构中时域卷积核的不同添加位置。其次,设计了时域卷积核的不同初始化方式,即对所有的特征通道在时间上设置为平均初始化或者中心帧初始化。最后,设计了时域全局最大池化,提高了时空域的局部感受野,从而能够学习到特征之间的长期时序相关性。论文还研究了异构双流的时空残差网络。通过将双流基础架构中双流分别替换为50层和152层的残差网络以实现在不同数据集上的多任务学习。基于以上的研究,论文提出了最终的时空残差网络架构:异构双流乘法时空残差网络。为了实现对复杂时空特征的多层次学习,整个模型采用端到端的训练。在两个广泛使用的行为识别数据集上,提出的模型均到达领先的性能。