论文部分内容阅读
随着网络技术与计算机智能监控技术的发展,大量的视频数据应运而生。针对视频中特定目标的分析,传统的人工分析方法已经不能满足现有的需求,因此智能的处理视频数据成为一个关键问题。在当前行为识别算法中,卷积神经网络作为深度学习的代表算法,具有表征学习的能力,在目标检测与识别、自然语言处理等领域相比传统的计算机视觉技术和专家系统有更好的性能表现。本文主要针对UCF101数据集,重点研究基于卷积神经网络的人体动作识别,具体内容有以下几个方面:1.改进3D卷积神经网络模型。在C3D模型的基础上,借鉴谷歌Inception系列网络思想,使用多个小卷积核代替大卷积核增加模型的非线性表达能力。在输入数据上,使用多种数据的不同组合训练改进后的3D网络,通过分析不同组的实验结果,确定最优的输入数据格式。改进后的3D网络其准确率相比原论文中提升了3.3%到达了88.5%,复杂度降低了33.6%。2.提出基于时间维度的注意力机制动作识别模型。将时间注意力机制添加到改进后的3D卷积模型上。首先在特征提取模块的最后,使用金字塔池化层更加全面的考虑多层卷积的特征。其次在池化层后增加基于时间维度特征的注意力网络,将池化后得出的特征加入到时间注意力网络中,对视频帧中的特征增加相关性权重,并通过注意力机制的迭代更新特征的权重。改进后的网络模型准确率为90.4%,证明了这种改进的有效性。3.设计双速帧率特征检测模型。参考快慢结合思想,将其融合到3D卷积网络中,设计双速帧率检测模型。模型分别使用不同的帧率来获取视频中的空间语义信息和运动信息,两通道信息通过侧向连接的方式进行特征融合。在获取所有特征后,将特征输入到时序检测网络,识别时序动作,并为网络模型设计行为识别系统,证明网络模型的可应用性。本文主要通过改进网络结构提升网络的表现性能,并实验验证网络中做出的改进。在最后设计简单的网络系统,证明网络的可应用性。