论文部分内容阅读
如今,计算机等智能设备已进入千家万户,与智能设备进行人机交互逐渐成为人们日常生活中必不可少的一部分。人机交互主要通过人与计算机之间的信息转换,达到控制,操作计算机或者智能设备,以实现功能和目的。人机交互在手语识别、虚拟现实、设备控制以及娱乐等方面受到了广泛的关注。手势交互因其便捷、普遍受到广大研究者的关注,同时因智能手机等设备获取手势图像快速且便捷,研究基于计算机视觉的手势交互成为人机交互研究领域的热点话题。但手势图像包含复杂多样的背景噪音,比如光照、背景重叠遮挡等,基于计算机视觉的手势识别仍然面临巨大的挑战。机器学习和深度学习的出现为基于计算机视觉的手势识别提供了新的思路。本文深入研究了基于计算机视觉的手势识别问题,提出一种基于卷积神经网络的手势识别方法,实现了复杂背景下手势的准确、快速识别。本文研究主要包括以下几个部分:(1)为了减少手势图像中复杂背景、光照等噪声对识别性能的影响,提出基于DSSD(Deconvolutional Single Shot Detector)的手势图像检测算法。首先,以VGG为基础网络,并增加用于特征提取的卷积层,构建基于SSD(Single Shot MultiBox Detector)的目标检测模型,然后利用数据集对监测模型进行训练和测试。为了提高小目标检测的精度,将浅层和深层的特征信息进行融合,提出基于DSSD的手势检测算法,实验结果表明了该模型能够有效检测手势区域。(2)为将手势从背景图中分割出来,以提高手势识别精度,提出基于生成对抗网络(Generative Adversarial Networks,GAN)的手势图像分割算法。首先,将AlexNet网络全卷积化,然后使用跳级结构结合多层特征进行反卷积,建立基于全卷积神经网络(Fully convolutional Network,FCN)的手势分割算法。然后,针对FCN的上下采样导致的手势图像分割后细节丢失的问题,并借鉴生成式对抗网络的思想,提出基于生成式对抗网络的手势图像分割算法。最后在公共数据集上评估了手势图像分割算法的性能,试验结果表明基于生成对抗网络的手势图像分割算法能够剔除背景和噪声区域,有效提取到手势区域。(3)为了实现手势的有效识别,提出基于GoogLeNet网络的手势分类模型。首先利用分割的手势图像建立训练集合,并对识别模型进行训练。在测试阶段,输入一幅分割图像到识别模型中,其输出为该图像的类别。在实验中,分别利用原始手势图像、手势检测图像、手势分割图像训练GoogLeNet网络,得到三种手势识别模型,然后对这三种模型的识别结果进行分析和比较。实验结果表明,基于GoogLeNet网络的识别模型具有良好的稳定性,能提取到复杂背景下的图像的鲁棒特征,提高手势识别的精度。另外,手势检测和手势分割预处理算法能够改善手势的识别精度。