论文部分内容阅读
视频数据的爆炸式增长以及人工智能的发展,对建立完善的智能视频分析系统产生了迫切的需求,而作为其核心技术之一的行为识别技术自然成为研究的热点。人体行为识别技术在智能视频分析、智能交通系统以及医疗监护等领域具有重要的应用价值,研究前景广阔。深度学习方法凭借其出色的特征提取能力逐渐取代了表现乏力的基于人工特征的方法,在图像处理领域取得了极大的成功。行为识别基于视频,得益于在图像领域的成功应用,深度学习方法成为当前行为识别研究的主流方法。但是,视频不同于静态图像,除了包含有静态的空域信息外,还存在时序上的动作信息,因此如何能够有效融合空时域特征则是行为识别研究的难点。本文主要对基于深度学习和空时特征融合的视频行为识别方法进行研究,做出的主要工作包括:(1)提出一种基于3D残差网络与空时特征融合的行为识别算法。使用3D卷积可以同时在视频空间维度和时间维度操作,能够提取视频图像空域和时域上的特征。此外使用残差网络结构,利用其良好的网络特性,降低了网络训练的难度。考虑到2D残差网络对单帧图像提取到的空域信息对区分不同的行为有一定的作用,提出将3D残差网络提取的空时域特征与2D残差网络提取的纯空域特征进行融合,在保留原时序特征的同时,增强了所提特征对空域信息的表示能力。实验结果表明,该算法与现有一些算法相比,在行为识别准确率方面有一定程度的提高。(2)提出一种基于3D多纤维网络与时序线性编码的行为识别算法。利用3D多纤维模块取代3D卷积来对视频空时域特征进行提取,可有效降低网络中需要优化的参数量,降低网络模型的训练难度。此外,针对传统3D卷积类方法仅能提取视频局部片段空时域特征的弊端,提出在3D多纤维网络卷积层之后添加时序线性编码层,以融合来自同一个视频多个视频片段的空时域特征,从而获得长时间结构视频整体的空时域特征表示,提高行为识别准确率。(3)提出一种基于时域分割与(2+1)D卷积神经网络的行为识别算法。结合时域分割的思想,对视频连续帧进行稀疏采样,保持视频整体时序信息的同时,去除大量冗余。利用(2+1)D卷积取代3D卷积,提高了网络的非线性表达能力,此外,网络能够从采样得到视频图像中有效学习到长时间结构的空时特征表示,在保持高识别率的同时,提高了算法的效率。