论文部分内容阅读
人类动作数据集记录方式分为RGB和RGB-D两类,本文根据输入图像的种类不同,将三维人体姿态估计研究大致分为两类:第一类是基于RGB图像,第二类是基于RGB-D或深度图像。在深度传感设备普及之前的三维人体姿态估计研究中,主要是使用二维的RGB图像来实现三维的人体姿态估计,其主要方法大致可以分为生成法,判别法、混合法以及基于深度学习的方法。其中,关键的一步是从图像中估计出二维的关键点或二维姿态,然后通过建立的先验模型预测出三维的姿态。使用卷积神经网络在姿态估计中的表现非常优异,依赖神将网络的计算能力,可以直接从输入图像进行三维姿态回归,如Mehta等基于CNN提出一种实时的三维人体姿态估计方法。虽然过去十几年对基于RGB图像的三维人体姿态估计的研究取得了很大的突破,但是仍然有很多问题未得到解决。首先,由于背景、尺度和光照变化,以及服装和配饰在人体上的复杂外观,人体各部位的外观差异很大。同时,在RGB数据中,摄像机的拍摄角度和成像的垂直投影法使人体出现较大的变形,其次,人体运动中存在大量的遮挡现象会导致与人体有关的信息丢失,对于仅仅依赖RGB数据,由于遮挡问题不能重构杂乱的人体部位。因此估计准确度、收敛速度、鲁棒性等问题未得到解决。随着深度传感设备的普及,深度图像的获取更为方便,在人体姿态估计的研究中更倾向于利用RGB-D数据中的深度信息。深度信息有助于解决复杂场景中的外观变化、变形和遮挡问题,提高人体姿态估计的可靠性和准确性。首先,针对深度信息的外观特征,提出了将三维空间投影到二维平面上的有效方法,如距离不变投影和基于法线的投影。这样可以避免垂直投影到二维平面上的变形。此外,深度相机的照明和颜色变化不变。这使得使用深度信息作为外观描述符是有效的。其次,对于遮挡问题,可以通过深度信息和RGB图像对遮挡部分进行重构。在目前的基于TOF摄像机的人体姿态估计方法的研究主要包括Ganapathi的工作,他提出了一种利用单目深度图像流跟踪人体姿态的高效滤波算法。其关键思想是将一个精确的生成模型与一个提供有关身体部位位置判别模型相结合。Jain提出了一种基于模型的方法,采用基于Haar级联的检测方法和模板匹配方法,通过融合RGB数据和深度信息来检测和估计人类姿态。Zhu介绍了一种用于估计人体姿态的系统、方法和计算机应用。从一个方面看,在人体的深度图像中发现了解剖学特征。该方法在深度图像中检测到头部、颈部和躯干(H-N-T)模板,并基于H-N-T模板检测深度图像中的肢体。此外,基于TOF摄像机的人体检测和姿态估计还有很多。Plagemann等提出了一种新的关键点检测器,用于人体的网格结构模型和深度数据,以解决在深度图像中检测和识别身体部位的问题。Ikemura提出了一种利用关系深度相似特征(RDSF)检测人类的方法,该方法基于TOF摄像机获得了深度信息。与此同时,随着Kinect的发布,许多研究人员已经使用Kinect来进行人体姿态估计。在Shotton提出的一种新方法中,可以在不使用时间信息的情况下,从单个深度图像中快速准确地预测人体关节的三维位置。该算法采用了一种目标识别方法,将复杂的位姿估计问题映射为一个简单的像素分类问题。运用了大量的、高度多样化的训练数据集,允许分类器能够估计身体部位对姿势、体型、服饰等具有不变性。他们通过重新投影分类结果并找到局部模式来生成几个身体关节的置信度三维方案,能够处理部分遮挡问题,同时该算法能有效地估计无光或无约束光照条件下的人体姿态,且具有尺度不变性。此外,Ye提供了一种使用单深度摄像机实时同步姿态估计方法。Pauwels提出了一种基于模型的基于密集运动和深度线索的姿态实时检测和跟踪方法。然而,所提出的方法受TOF相机深度测量距离较短的限制。