论文部分内容阅读
随着移动通讯技术的发展,视频数据在互联网上正占有越来越大的比重,我们的生活娱乐也逐渐离不开各种视频应用。智能视频分析技术在智能监控、自动驾驶、鉴黄鉴恐等多个领域有重要的应用价值。动作识别任务作为视频分析领域的核心任务,对它的研究不仅能够提升动作识别效果,而且能够为其它视频相关任务提供理论基础。特征表达是视觉领域的核心问题,而特征编码与池化在特征表达的研究中处于重要地位。特征编码是对输入特征进行编码而得到更高层特征的过程,特征池化是指将空间或时间上特定区域内的视觉特征进行聚合的过程。这两个操作都是在已有局部冗余特征的基础上,通过特定的统计方法来得到更有表达能力的整体紧凑特征。本文针对基于特征编码与池化的动作识别方法进行研究,其中在特征编码方面开展了两项工作:基于局部聚合思想对光流等底层特征进行编码;设计注意力编码层对空域特征进行编码。在特征池化方面也开展了两项研究:运用轨迹先验对视频卷积特征进行时域池化;设计时空门控金字塔池化层对视频卷积特征进行时空域池化。本文的研究内容和主要贡献分为以下四个方面:(1)将局部聚合思想应用到手工设计特征中,提出了基于局部聚合直方图编码描述子的动作识别方法。传统直方图编码描述子的缺点在于只考虑了落入各桶内数据点的个数信息,本文借鉴VLAD方法中的局部聚合思想,对各数据点与桶中心点之间的差向量进行统计,并在HOF和MBH描述子的基础上设计了LA-HOF和LA-MBH描述子,动作识别数据集上的实验结果验证了所提出描述子的有效性。在此基础上本文还进一步将局部聚合思想推广到HOG描述子中提出了LA-HOG描述子,并在目标识别任务上取得了较好的结果,这验证了局部聚合思想在直方图编码描述子构建中的普适性。(2)将注意力机制和特征编码思想引入到神经网络的设计中,提出了基于双流卷积注意力编码网络的动作识别方法。所设计的注意力编码层通过全局和局部两个分支对视频帧的卷积特征进行编码,其中全局编码分支对整个视频帧进行编码,局部编码分支对视频帧中的多个显著区域进行编码,而且在局部编码分支中还构建了两种多支路编码结构并进行了比较。所提出网络在动作识别公开数据集上取得了较好的分类结果。(3)将轨迹先验与三维卷积网络相结合,提出了基于多尺度轨迹池化三维卷积描述子的动作识别方法。轨迹先验包含了像素点的运动信息,在传统手工设计特征中常被用来进行时域建模。对于输入视频首先使用三维卷积网络提取特征图,然后将原始视频计算得到的多尺度轨迹向特征图进行投影,最后在投影上进行轨迹池化操作并得到所提出的描述子。在公开数据集上的实验结果表明与C3D模型相比,所提出描述子由于更好地利用了时域信息从而具有更强的表达能力。(4)将金字塔池化方法和门控机制相结合,提出了基于时空门控金字塔池化网络的动作识别方法。所设计的时空门控金字塔池化层包括金字塔池化模块和门控模块,其中金字塔池化模块利用金字塔思想,在池化的同时对特征进行时空划分。门控模块则分为时空位置和通道上的两步门控操作,根据这两步操作的串联和并联,本文提出并比较了两种门控结构。在动作识别公开数据集上的实验结果表明所提出的STGPP层进一步提升了卷积特征的判别能力。