基于三维数据的人体动作识别技术研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:hummerandy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体动作识别是目前计算机视觉以及人工智能领域的一个热点课题,在下一代智慧家居,无人商店,智能视频监控,互动娱乐等领域具有广泛的应用前景。早期的人体动作识别研究主要基于RGB视频,容易受到视角变化、光照变化、复杂背景等因素的影响,人体动作识别的精度一直不能令人满意。随着深度传感器技术的不断进步,特别是廉价器件的出现,三维数据如深度图、骨骼数据变得更容易获取。与RGB数据相比,三维数据能够提供场景的三维结构信息并且对尺度和光照的变化具有较强的鲁棒性。因此,基于三维数据的人体动作识别是目前的一个研究热点。
  近年来,深度学习在众多计算机视觉任务中取得了优异的性能表现,将深度学习技术用于人体动作识别,是目前动作识别领域的一个重要研究方向。本文围绕三维数据和深度学习,主要研究如何利用深度网络从三维数据中提取有效时空特征,完成的主要工作如下:
  1.提出了一种将骨骼动作序列映射成图片的人体动作识别方法—骨骼节点距离图,首先计算帧内各个骨骼节点之间的距离,把连续帧间的骨骼距离映射成一张骨骼距离图。然后将得到的骨骼距离图送入深度卷积网络进行特征提取和动作分类。与原有的骨骼轨迹图(JTM)方法相比,骨骼距离图能够更好地解决视角变化敏感的问题。该方法在主流的动作识别数据集NTURGB+D和UTD-MHAD上,识别准确率比之前最好的人体动作识别方案分别提高了4.95%和2.30%。
  2.其次,提出了一种基于多流网络的人体动作识别方案。该网络包括3路卷积神经网络和3路递归神经网络,充分发挥它们各自提取空间特征和时间特征的优势。本文提取了三种空间特征输入到递归神经网络去探索时间信息,同时设计了一种改进的骨骼轨迹图输入到卷积神经网络去挖掘空间信息,最后用决策融合的方法将两种特征融合。该识别方案在NTURGB+D、UTD-MHAD和MSRC-12KinectGesture三个数据集上,比之前最好的人体动作识别方案的准确率分别提高了1.65%、7.48%和3.35%。
  3.再次,提出一种基于时空注意力机制的人体动作识别框架。该框架首先将每一帧的骨骼节点映射成一张骨骼节点图,然后通过一个深度3D卷积递归网络提取局部和全局的时空特征。接着设计了一个卷积网络去关注每个时刻的重要空间区域,利用全局信息去选取关键帧,最后通过时间池化的方式生成时空注意力动态图用于动作的分类。该动态图不仅包含了人体动作的动态信息,而且能够更好地突出关键的时空信息。该方法在NTURGB+D等三个主流的数据集上进行了验证,其中在目前最大三维数据集NTURGB+D上,相比于之前基于注意力的方法准确率提高了8.29%。
  4.最后,提出了一种深度多模态特征融合网络。根据不同模态数据的特点,设计了3D密集连接卷积网络从RGB数据或深度图提取特征,利用独立递归神经网络从骨骼数据提取特征。然后,利用克罗内克积融合两个特征,最后利用一维卷积消除两个特征的相关性。针对某个模态丢失的问题,本文还设计了一个检索估计模型,从其他模态学习到丢失模态的特征。相比于目前最好的融合方法,在NTURGB+D、UTD-MHAD和SYSU-3D三个数据集上的识别准确率分别提高了1.90%、1.53%和7.61%。
其他文献
手写体中文的自动识别是中文文档数字化的前提和基础,在历史文档识别、手写笔记转录等方面有着重要的应用价值。手写体中文具有书写随意、结构复杂、相似性强、数目众多、缺乏统一规范等特点,这使得其自动识别成为一个具有挑战性的问题。  本文首先分析了手写体中文自动识别领域的研究背景与意义,对国内外的研究现状做了综述;介绍了深度学习的基础理论知识、卷积神经网络的构成,以及常用的网络模型。  其次,论文在经典Le
利用微多普勒雷达对人体行为进行识别,在灾后搜救、智能家居、无人驾驶、安全监控等领域都有广泛的应用,具有极大的研究价值。面向实际应用,本文开展了微多普勒雷达图像去噪和人体行为识别的研究,分别提出了去噪模型和人体行为识别模型,并利用雷达仿真数据和实测数据对所提模型的性能进行了评估,主要研究内容及创新性工作如下。  为了去除微多普勒雷达图像中的噪声,提出了一种基于生成对抗网络(Generative Ad
作为计算机视觉领域的基本问题之一,目标检测系统实现了对图像中每个目标对象的分类,同时在目标中心点四周绘制大小适当的边界框来对目标进行定位。目标检测任务是视频分析、场景理解等其他计算机视觉任务的重要基础。近年来,得益于深度学习技术的飞速发展,智能安防、自动驾驶等领域的研究进展迅速,新目标检测算法层出不穷。目标检测技术的突破使得对快速准确的目标检测系统的需求越来越多,诞生了系列算法。  虽然目标检测算
学位
图像质量是影响机器视觉决策的决定性因素。在工业检测场景下,由于环境光照、被测物体表面材质、反射率及三维形状等因素的影响,拍摄图像容易出现采光不同的现象,导致过曝光区域与曝光不足区域同时出现,这些区域一旦形成,无法通过图像处理的手段进行恢复。由于图像细节信息的丢失,影响了工业检测的准确性和可靠性。基于上述问题,本文提出了使用自适应照明系统,此系统主要思想是采用主动改善光照条件的方式进行自适应补光:在
学位
随着立体成像技术的发展,立体图像逐步走进人们的生活,但观看质量不好的立体图像会引起人们心理和生理上的不适,这严重限制了立体成像技术的发展,因此找到一种能够系统有效的评价立体图像质量的算法已成为了相关领域的研究热点。论文的主要工作如下:  第一,论文提出了一种基于自适应的融合图像与集成学习的立体图像评价算法。首先考虑到增益控制和增益增强等人眼视觉机制,模拟双目视觉信息在视觉通路中的融合过程,将立体图
随着计算机技术与硬件设备的发展,人体关节三维坐标数据逐渐获得学术界与工业界的重视,应用到很多领域,如在影视动画作品中驱动虚拟人物、在体育训练中记录测量数据、在网上购物中虚拟试衣、以及在游戏中体感交互等,逐渐渗透到人们的生活中。人体关节三维坐标数据通常由彩色图像或深度图像经由人体轮廓提取、虚拟骨骼曲线提取、二维关节点定位、相机校准等算法获得,获取到的数据由于运动复杂或存在遮挡、衣服纹理相似或材质柔软
学位
光电振荡器(optoelectronic oscillator, OEO)作为一种新型高性能振荡器,由于其具有高振荡频率、低相位噪声和高频谱纯度等特性,受到越来越多学者的关注和研究。随着OEO的相位噪声和边模抑制性能的不断完善,频率可调谐性成为了其实用化的阻碍,如何在保证低相位噪声和高边模抑制性能的同时产生频率可调谐的振荡信号成为了研究的热点。除了上述特性,OEO的振荡频率对于腔长变化特别敏感。利
未压缩的原始视频信号包含巨大的数据量,视频压缩技术的进步使得在有限的带宽中传送高质量视频成为可能。尽管现代视频编码技术已经具有极高的压缩效率,但随着互联网的兴起及超高清显示拍摄设备的普及,视频的数量和质量呈爆炸式增长,当前视频编解码标准的压缩效率仍然难以满足人们对高数量高质量视频的需求。另一方面,近些年在硬件强大的计算能力和互联网大量可获得的数据的支持下,深度学习展现出巨大潜力并在众多领域取得了重
学位
随着智能机器人在日常生活中的普及和自动驾驶技术的发展,同时定位与建图(Simultaneous Localization and Mapping , SLAM)受到广泛的关注。机器人在未知环境下如何进行自主定位与地图构建,是SLAM需要解决的问题。目前,SLAM是室内移动机器人以及室外无人驾驶汽车研究的重要课题之一。  SLAM根据传感器的类型分为激光雷达SLAM和视觉SLAM,激光雷达价格昂贵,
立体匹配技术是当前计算机视觉领域内的研究热点和前沿问题,相较于基于结构光、飞行时间原理的主动式深度获取方式,这类被动式深度获取方式具有分辨率高、功耗低、成本低的优势,在航天、测绘、自动驾驶等领域得到广泛的应用。在立体匹配技术中,通常采用立体匹配算法获取场景的视差,并将视差用于场景深度的计算。在立体匹配算法中,基于图像滤波的匹配算法具有计算复杂度低、运行效率高的特点,其成为当今学界和业界研究的重点,