论文部分内容阅读
视频动作识别通常是指从一段视频序列中识别出人体动作类别的过程,该项技术广泛应用于多媒体内容分析、人机交互、智能实时监控等领域,可以通过对视频进行特征提取生成特征向量,用分类器对特征向量进行分类来实现。本文主要针对视频的时空特征提取问题展开研究,传统方法中通常将视频三维时空域作为一个整体来捕捉视频动态变化特征,这种做法存在片面性,会导致丢失大量属于二维图像空间域或一维时序域特有的变化特性,因此,视频动作识别技术需要对视频时间、空间结构分开处理以便更加全面地捕捉视频动态变化中的时空特征信息,本文针对以上问题提出了两种视频时空特征提取算法,主要研究内容如下:1)本文提出了一种基于多通道时空金字塔的视频时空特征提取方法。该方法的核心内容是多通道时空金字塔模型的构建,该模型摒弃了传统时空金字塔将视频三维时空域整体多尺度子分割的方式,而对视频分别进行三维时空域、二维图像空间域、一维时间域三个通道单独进行多尺度分割,结合词袋模型计算每个子空间词频直方图,最后串联所有子空间词频直方图作为视频最终特征向量,用分类器对特征向量进行分类。该方法可以更加全面的捕捉视频分别在三维时空域、二维图像空间域、一维时间域上的特有的动态变化特征,丰富了视频特征的时空结构信息。2)本文提出了一种基于排序池化融合空间特征的视频时空特征提取方法。该方法对视频每帧图像的二维空间域进行多尺度分割,单独对每个子空间内按照时序排列的局部特征向量序列用排序函数进行监督学习,捕捉子空间特征序列的时序变化信息,将模型参数作为该子空间的特征描述子,最后串联各个子空间描述子获得视频最终特征向量,使用分类器对特征向量进行分类。该方法将二维图像空间特征融入排序池化算法中,既继承了排序池化算法可以捕捉丰富的视频时序变化特征的优点,又弥补了其缺乏二维图像空间结构特征的缺点,可以有效地提高动作识别的准确性。