论文部分内容阅读
人体动作识别是目前计算机视觉以及人工智能领域的一个热点课题,在下一代智慧家居,无人商店,智能视频监控,互动娱乐等领域具有广泛的应用前景。早期的人体动作识别研究主要基于RGB视频,容易受到视角变化、光照变化、复杂背景等因素的影响,人体动作识别的精度一直不能令人满意。随着深度传感器技术的不断进步,特别是廉价器件的出现,三维数据如深度图、骨骼数据变得更容易获取。与RGB数据相比,三维数据能够提供场景的三维结构信息并且对尺度和光照的变化具有较强的鲁棒性。因此,基于三维数据的人体动作识别是目前的一个研究热点。
近年来,深度学习在众多计算机视觉任务中取得了优异的性能表现,将深度学习技术用于人体动作识别,是目前动作识别领域的一个重要研究方向。本文围绕三维数据和深度学习,主要研究如何利用深度网络从三维数据中提取有效时空特征,完成的主要工作如下:
1.提出了一种将骨骼动作序列映射成图片的人体动作识别方法—骨骼节点距离图,首先计算帧内各个骨骼节点之间的距离,把连续帧间的骨骼距离映射成一张骨骼距离图。然后将得到的骨骼距离图送入深度卷积网络进行特征提取和动作分类。与原有的骨骼轨迹图(JTM)方法相比,骨骼距离图能够更好地解决视角变化敏感的问题。该方法在主流的动作识别数据集NTURGB+D和UTD-MHAD上,识别准确率比之前最好的人体动作识别方案分别提高了4.95%和2.30%。
2.其次,提出了一种基于多流网络的人体动作识别方案。该网络包括3路卷积神经网络和3路递归神经网络,充分发挥它们各自提取空间特征和时间特征的优势。本文提取了三种空间特征输入到递归神经网络去探索时间信息,同时设计了一种改进的骨骼轨迹图输入到卷积神经网络去挖掘空间信息,最后用决策融合的方法将两种特征融合。该识别方案在NTURGB+D、UTD-MHAD和MSRC-12KinectGesture三个数据集上,比之前最好的人体动作识别方案的准确率分别提高了1.65%、7.48%和3.35%。
3.再次,提出一种基于时空注意力机制的人体动作识别框架。该框架首先将每一帧的骨骼节点映射成一张骨骼节点图,然后通过一个深度3D卷积递归网络提取局部和全局的时空特征。接着设计了一个卷积网络去关注每个时刻的重要空间区域,利用全局信息去选取关键帧,最后通过时间池化的方式生成时空注意力动态图用于动作的分类。该动态图不仅包含了人体动作的动态信息,而且能够更好地突出关键的时空信息。该方法在NTURGB+D等三个主流的数据集上进行了验证,其中在目前最大三维数据集NTURGB+D上,相比于之前基于注意力的方法准确率提高了8.29%。
4.最后,提出了一种深度多模态特征融合网络。根据不同模态数据的特点,设计了3D密集连接卷积网络从RGB数据或深度图提取特征,利用独立递归神经网络从骨骼数据提取特征。然后,利用克罗内克积融合两个特征,最后利用一维卷积消除两个特征的相关性。针对某个模态丢失的问题,本文还设计了一个检索估计模型,从其他模态学习到丢失模态的特征。相比于目前最好的融合方法,在NTURGB+D、UTD-MHAD和SYSU-3D三个数据集上的识别准确率分别提高了1.90%、1.53%和7.61%。
近年来,深度学习在众多计算机视觉任务中取得了优异的性能表现,将深度学习技术用于人体动作识别,是目前动作识别领域的一个重要研究方向。本文围绕三维数据和深度学习,主要研究如何利用深度网络从三维数据中提取有效时空特征,完成的主要工作如下:
1.提出了一种将骨骼动作序列映射成图片的人体动作识别方法—骨骼节点距离图,首先计算帧内各个骨骼节点之间的距离,把连续帧间的骨骼距离映射成一张骨骼距离图。然后将得到的骨骼距离图送入深度卷积网络进行特征提取和动作分类。与原有的骨骼轨迹图(JTM)方法相比,骨骼距离图能够更好地解决视角变化敏感的问题。该方法在主流的动作识别数据集NTURGB+D和UTD-MHAD上,识别准确率比之前最好的人体动作识别方案分别提高了4.95%和2.30%。
2.其次,提出了一种基于多流网络的人体动作识别方案。该网络包括3路卷积神经网络和3路递归神经网络,充分发挥它们各自提取空间特征和时间特征的优势。本文提取了三种空间特征输入到递归神经网络去探索时间信息,同时设计了一种改进的骨骼轨迹图输入到卷积神经网络去挖掘空间信息,最后用决策融合的方法将两种特征融合。该识别方案在NTURGB+D、UTD-MHAD和MSRC-12KinectGesture三个数据集上,比之前最好的人体动作识别方案的准确率分别提高了1.65%、7.48%和3.35%。
3.再次,提出一种基于时空注意力机制的人体动作识别框架。该框架首先将每一帧的骨骼节点映射成一张骨骼节点图,然后通过一个深度3D卷积递归网络提取局部和全局的时空特征。接着设计了一个卷积网络去关注每个时刻的重要空间区域,利用全局信息去选取关键帧,最后通过时间池化的方式生成时空注意力动态图用于动作的分类。该动态图不仅包含了人体动作的动态信息,而且能够更好地突出关键的时空信息。该方法在NTURGB+D等三个主流的数据集上进行了验证,其中在目前最大三维数据集NTURGB+D上,相比于之前基于注意力的方法准确率提高了8.29%。
4.最后,提出了一种深度多模态特征融合网络。根据不同模态数据的特点,设计了3D密集连接卷积网络从RGB数据或深度图提取特征,利用独立递归神经网络从骨骼数据提取特征。然后,利用克罗内克积融合两个特征,最后利用一维卷积消除两个特征的相关性。针对某个模态丢失的问题,本文还设计了一个检索估计模型,从其他模态学习到丢失模态的特征。相比于目前最好的融合方法,在NTURGB+D、UTD-MHAD和SYSU-3D三个数据集上的识别准确率分别提高了1.90%、1.53%和7.61%。