论文部分内容阅读
基于视觉的人机交互方式具有对于用户无干扰、不需要穿戴传感器、交互自然等优点,在新一代人机交互系统中有着重要的应用价值。肢体动作作为人最基本交互方式之一,自然、快捷、方便且传递的信息量丰富,而人手作为最高效、最灵活的肢体部位,其功能最强大,使用最广泛,在视觉人机交互中占有举足轻重的地位。精确的人手姿态估计能够直接用来进行人手建模、人手动作理解等。本文以建立快速准确的人手姿态估计系统为目标,研究基于三维卷积神经网络的人手姿态估计算法,主要包括: 1.提出了一种基于三维卷积神经网络的人手姿态估计算法,能够实时准确地预测输入深度图像中人手的三维位置。本文将输入深度图像转换为三维的的Truncated Signed Distance Function(TSDF)表达,不仅能够表达出人手表面在空间中的位置,同样也对空间点到人手表面的距离进行编码,是深度图像人手区域较好的三维表达。已有的基于卷积神经网络的人手姿态估计工作多以深度图像作为输入,预测人手关节点的三维位置,这类工作要求算法能够自主地学习深度图像到三维关节位置的映射或者需要后续优化处理,这些方法往往造成较大的误差。针对这个问题,本文首次使用三维卷积神经网络估计人手关节点位置。我们的方法以三维TSDF为输入,从三维层面提取特征,避免了不必要的误差,并且由于三维特征较好地蕴含了三维上下文信息,可缓解了人手自遮挡问题,使得算法能够达到更高的精度。此外,由于深度相机拍摄图像精度低、噪声大和边缘深度缺失等问题,因此对原始深度图像进行去噪和填充缺失是提高人手姿态估计精度必不可少的关键环节。鉴于此,本文提出一种基于三维全卷积网络(Fully Convolutional Network,简称FCN)的深度图像TSDF表达超分辨率网络。该网络从大量样本中学习数据规律,对输入的数据进行超分辨率优化,达到了去噪和填充缺失的目的,更好的数据质量进一步提高了人手姿态估计的精度。本文算法运行速度基本能够达到实时系统的要求,约为30FPS(Frames Per Second),且在NYU人手数据集上预测误差约为17.6mm,为目前最好的精度,且已经达到人类标注数据的准确性范围(约20mm)。 2.提出了一种扩充人手数据集的方法,能够将现有的人手手势转移到不同的人手上,使得数据集能够覆盖更多的人手配置。基于深度学习的人手姿态估计迫切需要大量的多样化人手深度图-姿态数据集,然而现有的数据集或者没有较全面的人手手势或者从单一个体采集数据,使得人手数据集不能够反映现实情况,这严重影响着据此得到的人手姿态估计算法的准确性和鲁棒性。本文提出一种数据集扩充方法,能够将现有的人手手势转移到不同的人手配置(胖瘦,大小等)上,使得人手数据集多样性、完备性更好。该方法的基本流程是:首先从现有数据集中提取出较多的人手手势,将其编码为骨骼长度无关的局部坐标系角度,然后结合不同尺寸的人手,并进行蒙皮(mesh)和渲染,最终可得到大量的手势一致、大小胖瘦不同的人手数据。实验表明,基于我们方法扩充后的人手数据集明显地提升了人手姿态估计算法的精度。