论文部分内容阅读
近年来,随着计算机视觉应用领域的快速发展,视频识别任务,尤其是对人类行为识别问题的研究成为了目前最火热的研究方向之一。视频识别是视频监控、自动驾驶、虚拟现实等诸多研究方向的基础任务,因而视频识别任务也受到了学术界和工业界的关注和重视。具体来说,行为识别任务是指对于给定的视频序列,利用模式识别和机器学习算法,自动地分析视频数据,并预测人类行为类别标签。本文在充分调研、总结前人已有工作的基础上发现:目前,大部分的识别算法均基于检测、跟踪或者设计更为鲁棒的特征来编码视频中的动作信息,进而辅助分类,但这类方法没有很好的利用样本类别之间的高层语义信息。针对这一问题,本文提出了基于联合密集轨迹和深度视觉特征表示的视频识别算法(Spatial Temporal Analysis across Grassmannian manifold and Euclidean space,ST-AGE)。ST-AGE 算法设计了一种新的时空特征表示体,通过将该特征体映射到不同的空间中度量样本相似性、分析其高层语义信息,帮助完成视频识别任务。本文工作主要有以下三个部分:(1)本文设计了一个新的视频特征:时空特征表示体(Spatial-Temporal Represen-tation Volume,STRV)。该特征体能够同时表达视频样本空间和时间两方面信息。基于深度卷积神经网络对于建模图像全局结构信息的强大能力,本文选择卷积神经网络中的全连接层的特征表达视频空间结构信息,同时该特征能够保留视频中部分序列方面的信息。另外,为了强化视频特征在时间方面的表达能力,本文选用了基于稠密轨迹的密集采样算法提取视频中显著性区域的轨迹信息。(2)本文提出了使用流形学习方法度量样本之间的相似性或差异性信息。在这一过程中,本文将时空特征表示体拆分为两个部分,将空间特征投影到格拉斯曼流形中计算样本测地线距离,在欧式空间中为每对样本计算时间特征方面的距离。并使用线性融合的方式将编码后的时间、空间特征再次结合在一起,最后使用支持向量机进行分类。(3)为了验证算法的有效性,本文在KTH、HMDB-51、UCF-50、UCF-101四个数据集中进行了验证,同时从多个角度比较了使用不同卷积神经网络结构等多种情况下的结果。实验证明,本文算法在四个大小不同的数据集中均有十分良好的表现。联合密集轨迹和深度视觉特征表示的视频识别算法充分考虑了视频的三维结构特性,并实现了跨空间分析的识别算法,该算法在多个数据集中均达到了较高的识别准确率。