论文部分内容阅读
近年来,随着智能手机与网络通信的发展,视频逐步成为信息的主要载体。相比与静态图片,视频携带的信息更为丰富,表达能力更强。面对海量的视频数据,如何利用有效的手段对其进行分析,挖掘其中的价值成了当下亟待解决的问题。本文重点关注视频动作识别这一任务,针对复杂视频中的运动表示问题和常见动作类别之间的层级关系,分别设计了基于特征融合与时序编码器的单流网络模型和基于层级认知模式的视频动作识别模型。 本文的主要研究成果和贡献如下: 第一,针对复杂场景下光流无法准确表示视频运动的这一问题,本文提出了一种基于特征融合与时序编码器的单流神经网络模型。这一模型通过特征融合策略将视频帧的浅层表观与深层语义相结合,获取更有判别力的视频帧特征表示;同时利用时序编码器,对一组有序的视频帧特征表示进行整合,得到一个同时包含浅层表观、深层语义以及时序相关性的视频运动特征表示。在YLIMED数据集上的实验结果显示,本文新提出的模型在复杂场景下良好的完成了对视频运动的建模,分类性能相比现有方法至少提升了2%。 第二,本文模仿人类由粗到细的层级认知方式,设计了一个适用于卷积神经网络的层级模块。该模块以一组特征作为输入,首先在粗粒度层面进行一次预分类,并依据这一预测信息,指导生成空间热力图,完成对输入特征在空间区域的特征选择,强化对分类结果起到重要作用的区域,并根据这一结果指导后续的特征提取过程。实验结果表明,在常用的视频动作识别数据集UCF101上,引入层级模块后,其分类性能提升了约6%。