论文部分内容阅读
手势作为一种人机交互模式,与传统的键盘和鼠标相比,在人机交互中具有更佳的舒适度,目前已被广泛应用于智能家居、机器人控制、手语识别等方面,成为人机交互领域的研究热点。与基于数据手套的手势识别技术相比,基于视觉的手势识别技术仅需要摄像头便能完成人机交互任务,无需佩戴接触式的数据手套,不会给人以束缚感,具有交互自然、简单方便的优点,成为手势识别的主流方式。基于视觉的手势识别技术利用单个或多个摄像头采集手势信息,采用特定的方法实现手势的识别。根据分类识别对象不同,可分为静态手势识别及动态手势识别。现实中手势交互背景环境复杂多变,不同的人表达同一手势时会有差异,这均为准确的手势识别带来困难,进而影响着用户体验。为了提高用户体验,构建一个鲁棒性较好的手势识别系统,本文对基于视觉的手势识别方法展开了研究。本文主要贡献如下:(1)静态手势分割方法手势分割是基于视觉的静态手势识别过程的第一个步骤,分割的效果影响着后期的手势分类结果。本文利用Kinect相机提供的深度信息结合手部的肤色信息进行手部分割,解决单目静态手势识别中存在的人手与复杂背景难以准确分离的问题。对于手部分割后存在冗余的手臂区域,本文创新性地采用距离变换操作并结合手掌分割圆,准确且快速地去除手臂区域。实验结果表明,该操作能够提高手势分类器的分类准确率。(2)静态手势识别方法对静态手势分割得到的手势二值图像提取特征并进行手势分类,本文探究不同的特征提取方式下手势分类器的分类性能。人工提取特征并输入到支持向量机进行训练,本文实现了一个传统的静态手势分类器。本文利用卷积神经网络对手势二值图像进行自动特征提取并分类,构建的手势分类器具有更好的识别效果。(3)动态手势识别方法本文利用3D卷积神经网络和卷积LSTM网络捕捉视频图像序列的时空特征,并利用SPP网络提取局部特征和全局特征,最终输入全连接网络实现了准确率高的动态手势识别。多模态视频图像序列作为动态手势分类器的输入,本文分别训练两种单模态网络并通过模型集成提高系统识别准确率,一定程度上避免了复杂背景环境的干扰。