论文部分内容阅读
基于视觉的手势解析算法在人机交互中有着重要的作用,手势解析分为手部姿态估计和手势识别,前者定位关节点的空间坐标,后者得到手势的类别。然而,因为手各部位颜色纹理接近、关节点多且自由度高,导致解析难度非常大。本文利用深度相机来进行手势解析技术的研究,这是因为深度相机捕捉的是手的三维结构信息,避免了颜色和纹理造成的干扰。 在基于深度信息的手部姿态估计中,本文结合了卷积神经网络和随机森林的优点,提出一个“预测-矫正”的两阶段的手部姿态估计算法,该方法首先利用卷积神经网络得到关节点初始位置,再利用随机森林进行进一步矫正。卷积神经网络的初始解弥补了随机森林对初始解敏感的问题,而矫正时提取的稠密差分特征又能进一步提升算法性。 针对解决二维卷积神经网络无法充分利用深度信息的缺点,本文提出一个三维卷积神经网络。三维卷积神经网络的输入是对深度信息描述能力更强的三维描述子,在此基础上三维卷积神经网络能够有效地捕捉到手的三维结构,充分地利用深度信息。 一直以来,手部姿态估计和手势识别都是作为两个独立的领域,本文在三维卷积神经网络的基础上提出一个多任务网络,对于单任务网络而言,多任务网络在性能上没有损失,二合一的网络也比两个单独的网络更节省资源开销。最后,本文在多任务网络的基础上,搭建了一个虚拟地球演示系统,该系统是一个实时的双手交互系统,能在虚拟现实环境下进行演示。