论文部分内容阅读
视频行为识别任务是对视频中人物所做动作进行识别和分类的一项技术,在日常生活的公共安全和危险预警等场景中有着重要的应用,并且在人际交互、智能标注等诸多领域也有着迫切的需求。目前,视频行为识别任务仍具有挑战性,尤其是在面对现实生活中未经剪辑的视频时,效果表现并不理想。主要原因是对于未剪辑视频来说,1、视频内容过于冗长;2、人物行为太过复杂;3、不同视频源的时长和分辨率不一致。因此,为了能让视频行为识别在现实生活中有着更好的应用,本文对上述问题进行了深入研究。针对视频内容冗长问题,本文提出了一个视频关键运动信息提取算法(Video Key-motion Information Extraction,VKIE)。该算法分为两步,第一步是利用视频光流的频谱信号来筛选视频的运动帧。视频中的运动变化可以反应在视频光流矩阵上,因此不同运动状态的视频帧其光流矩阵数值变化不同,那么转换到频域上的的频谱信号数值也有差距。于是基于这种差距,利用高通滤波和阈值分割思想将视频中不包含运动信息的非运动帧去除,保留其中的运动帧。接着根据不同运动状态所呈现的光流数据的分布差异,利用局部密度聚类算法(Density Peaks Clustering,DPC)来对运动帧的光流进行聚类,以此进一步挑选出其中的主要目标人物运动帧。这些视频帧便是视频的关键运动帧,其中包含了视频的关键运动信息。针对人物行为太过复杂问题,本文提出了一个视频运动信息长期时间依赖关系网络(Long-term Relationship Modeling Network,LRMN)。LRMN在时间关系网络(Temporal Relation Network,TRN)的基础框架上,利用(2+1)D卷积对其进行重构。该网络首先对输入的序列数据进行分组,并利用2D卷积的来提取多组段级特征。接着再将段级特征堆叠,并用1D卷积对堆叠特征的每个像素进行时序建模,得到整体视频级特征。这种方式可以同时进行时间和空间维度的建模且互不影响,并适用于长段序列数据的时序关系建模。针对不同视频源的时长和分辨率不一致问题,本文提出了一个视频多尺度时空金字塔层级特征融合算法(Multiscale Spatiotemporal Pyramid-level Feature Fusion,MSPFF)。该算法利用了特征金字塔(Feature Pyramid Network,FPN)的思想,对输入的视频数据提取多尺度时间和空间特征。并提出一种多尺度时空特征交互融合策略(Multiscale Spatiotemporal Feature Interactive Fusion,MSFIF),对这些多尺度时间和空间特征进行融合并构建时空特征金字塔,以此适应不同时空尺度的视频输入。最终将三个算法模块进行结合,并在多个经典数据集上展开了实验。实验结果表明,本文提出的方法可以很好地捕捉到视频中的关键运动部分,并以此进行多尺度时间和空间特征建模与融合,使得视频中的时序信息与运动空间场景产生联系,得到鲁棒的整体视频表征,提高识别的准确性。