论文部分内容阅读
人体动作识别在计算机视觉、视频监视和检索、以及娱乐行业中有着许多实际的应用。随着深度学习和卷积神经网络的出现,动作识别取得了巨大的成功。在过去一段时间里,研究者们已经提出多种基于深度学习的动作识别技术。动作识别由于其需要有效的时空表示而被认为具有很强的挑战性。而且,动作识别中更难的是需要探索最相关的特征,并且涉及到了多个领域的知识。本文提出了三种方法来解决这些问题。在本文的第一个方法中,本文通过使用残差注意网络利用多种领域知识(原始RGB、姿势和骨架),以便从输入视频帧中提取最相关的特征。然后,本文使用路径签名特征对卷积神经网络的时空信息进行编码。在第二种方法中,精心设计了注意关节以强调与人体骨骼最相关的关节。这些注意力关节是根据身体中心的空间距离、关节之间的邻近距离而设计的,以捕获空间信息。同时,连续帧之间的注意力关节流动提供了时间域上的细节。我们将这些时空细节通过注意力关节的特征向量进行编码,并整合到一个图卷积神经网络中,最后根据这些信息进行分类。在本文的第三种方法中,我们是将图稀疏化用于基于骨骼的动作识别。长期时空图同时包含空间和时间信息,但它也固有地包含了冗余信息。这些冗余信息会导致过拟合,因此,我们提出了通过边缘有效的阻隔建模进行图稀疏化,从而得到只包含了少量节点和边的稀疏图。然后,我们还设计了一个带有自注意力图池化的图卷积神经网络,以突出动作分类的局部图结构。在具有挑战性的动作识别数据集(例如J-HMDB,HMDB-51,UCF-101,Stanford-40 Action,PKU-MMD,NTU RGB+D,NTU RGB+D-120,Kinetics-Skeleton和UTD-MHAD数据集)上评估了本文所提出的模型。这些数据集中具有各种各样的视频,例如You Tube视频、多个摄像机视频和动作图像等,充满了挑战性。与各种同期算法相比较,本文提出的方法取得了最好的性能。