论文部分内容阅读
基于视频的人体动作识别在监控安全、视频内容分析、行为分析、人机交互等应用领域具有极大的应用价值。但因为动作难以定义、场景复杂、动作差异、模型泛化能力等问题,人体动作识别仍然是计算机视觉领域亟待攻克的难关。针对不同的动作识别应用场景和不同的识别问题,基于三维卷积神经网络提出了不同的动作识别算法。本文的工作内容分为以下三个方面:
(1) 针对传统网络欠缺动态特征捕捉能力和时域全局关联能力的问题,提出一种基于长短时记忆的三维双流卷积网络算法(Long-term 3D Convolutional Fusion Network, LT3D-CFN)。该算法使用双流3DCNN增强时空特征的捕捉能力,还用LSTM在视频时域全局构建长时关联。将LT3D-CFN在公共数据集UCF-101上进行有效性验证,精度达到92.87%。
(2) 针对3D ResNet训练耗时的问题,改进三维残差网,改进后的算法命名为基于恒等映射的三维残差网( 3D ResNet Based on Identity Mapping, IM-3D ResNet)。该算法以3D ResNet为基础,利用恒等映射中正向传播快的优势,根据不同激活归一化方法对信号传播的影响对三维残差模块内部结构做出改造。该算法在 UCF-101 数据集和HMDB51数据集上进行了验证,分别取得90.05%、66.01%的识别率。与主流的单流动作识别方法相比,识别准确率均有提升。
(3) 针对复杂场景下的动作识别问题,提出基于视频关键帧的动作识别算法。该算法中,改造了基于运动轨迹的关键帧提取方法中感知运动能量(Perceived Motion Energy, PME)的计算方法,使其适用于光流信息。然后,在IM-3D ResNet的基础上使用关键帧的三种特征信息做特征提取和分类。在 HMDB51 上达到 70.06%的识别效果,证明关键帧和特征互补在提高复杂场景中动作识别的优越性。
(1) 针对传统网络欠缺动态特征捕捉能力和时域全局关联能力的问题,提出一种基于长短时记忆的三维双流卷积网络算法(Long-term 3D Convolutional Fusion Network, LT3D-CFN)。该算法使用双流3DCNN增强时空特征的捕捉能力,还用LSTM在视频时域全局构建长时关联。将LT3D-CFN在公共数据集UCF-101上进行有效性验证,精度达到92.87%。
(2) 针对3D ResNet训练耗时的问题,改进三维残差网,改进后的算法命名为基于恒等映射的三维残差网( 3D ResNet Based on Identity Mapping, IM-3D ResNet)。该算法以3D ResNet为基础,利用恒等映射中正向传播快的优势,根据不同激活归一化方法对信号传播的影响对三维残差模块内部结构做出改造。该算法在 UCF-101 数据集和HMDB51数据集上进行了验证,分别取得90.05%、66.01%的识别率。与主流的单流动作识别方法相比,识别准确率均有提升。
(3) 针对复杂场景下的动作识别问题,提出基于视频关键帧的动作识别算法。该算法中,改造了基于运动轨迹的关键帧提取方法中感知运动能量(Perceived Motion Energy, PME)的计算方法,使其适用于光流信息。然后,在IM-3D ResNet的基础上使用关键帧的三种特征信息做特征提取和分类。在 HMDB51 上达到 70.06%的识别效果,证明关键帧和特征互补在提高复杂场景中动作识别的优越性。