论文部分内容阅读
传统的人体行为识别方法,通常构造人造特征进行行为识别。然而人造特征通常抽象能力不足,对于复杂的行为视频描述能力有限。随着近几年深度学习在计算机视觉领域的发展,基于深度学习的行为识别方法获得了国内外学者的广泛关注。相比于基于人造特征的方法,深度神经网络具有强大的自学习能力,能够挖掘数据内部抽象的深层信息。双流神经网络是目前基于深度学习人体行为识别研究的重点之一。目前基于双流神经网络的方法通常将识别任务分为静态流和动态流。论文分别研究了双流神经网络中的动态流部分和静态流部分,其中动态流是通过对视频中的包含运动信息的光流进行特征提取获取动态信息,静态流是对视频帧中的静态信息进行抽象提取获取静态信息。论文针对动态流研究了一个多级时间注意力动态流网络,由短时网络、中时网络、长时网络和时长网络组成。短时网络以连续两帧之间的光流作为输入,针对于捕捉连续帧之间的短时运动信息。同时构建短时注意力模块,突出更具代表性时刻短时信息的贡献。中时网络以连续多帧的光流叠加作为输入,针对于捕捉连续多帧包含的中时运动信息。同时构建中时注意力机制,突出更具鉴别性时刻中时信息的贡献。长时网络面向整个视频序列,利用LSTM对视频特征序列进行长时建模,获取整个视频的时序信息。通过长时时间注意力机制,促使网络学习更能够代表整个视频的长时运动信息。最后,本文将短时网络、中时网络和长时网络结合到一起,最终得到的运动特征不仅综合了短时、中时和长时三种不同的运动信息,还关注于视频中更重要位置的运动信息。论文针对静态流研究了一个引导注意力静态流网络,以更好的捕获行为视频中的静态信息。引导注意力静态流网络从卷积神经网络中抽取并结合高层的全局特征和低层的局部特征,获取了对于视频帧更加完整的信息。同时为了突出重要区域的深度特征,分别构建全局注意力网络和局部注意力网络。进一步在局部注意力网络基础上结合全局注意力的信息,使得局部注意力减弱对于背景噪声的关注。同时,通过引入引导注意力损失,使得局部注意力和全局注意的关注重点一致。另一方面,通过引入补充分类损失,使得全局和局部在进行识别时突出互补的部分。分别挖掘全局特征和局部特征的共同性和差异性,最终得到更加完备更具有鉴别力的深度特征。综上所述,本文对针对于人体行为识别的双流神经网络中的动态流网络和静态流网络进行了深入研究。分别提出了多级时间注意力动态流网络和多层引导注意力静态流网络,并结合两个网络进行行为识别。本文在两个具有挑战性的标准数据集上对本文提出的方法进行了实验,验证了本文方法的有效性。