论文部分内容阅读
作为一种非侵入式的交互接口,基于视觉的动态手势识别可以实现自然、方便的人与机器人交互(Human-robot Interaction,HRI),简称人机交互。近年来,随着一次学习(One-shot Learning)认知理论的发展,基于一次学习的动态手势识别研究受到了越来越多的关注,逐渐成为当前的一个研究热点。一次学习是人类水平的概念认知方法,人类仅从一个或有限几个例子中就可很好地学习并泛化新的知识。一次学习动态手势识别可以使机器人以更符合人类概念认知的机制来学习和识别动态交互手势。由于只需要一个或少数几个训练样本(通常只有一个),当用户自定义新的交互手势时,不需要复杂枯燥地采集训练样本,也不必费时地学习手势模型。这都大大提高了HRI的人性化和舒适度。 然而,基于一次学习的动态手势识别面临两个重要挑战:(1)如何从非常有限的训练样本中精确提取区别性特征来表达动态手势;(2)如何根据非常有限的训练样本构建符合人类概念认知机制的学习模型。课题针对上述两个挑战性问题进行了探索,主要研究工作如下: (1)噪声和全局经验运动约束严重影响了时空特征的精确与充分提取。为解决这些问题,提出了一种基于RGB-D视频数据的自适应局部时空特征(Adaptive Local Spatiotemporal Feature,ALSTF)提取方法。 首先根据灰度和深度速度的方差信息来自适应提取运动感兴趣区域(MotionRegions of Interest,MRoIs),以大大降低噪声对精确检测关键点的影响。然后在每个MRoI内检测Harris-Affine角点作为初始兴趣点,当初始兴趣点的深度、灰度速度与深度速度满足局部约束时即为关键点,局部约束在每个MRoI内自适应确定。在进一步滤除噪声额同时,可以从运动人体部位(Moving Body Parts,MBPs)提取到精确和充足的关键点。最后在扩展的梯度和运动空间计算并联合三维稀疏运动尺度不变特征变换(3D Sparse Motion Scale-invariant Feature Transform,3DSMoSIFT)、方向梯度直方图(Histogram of Oriented Gradient,HOG)、光流直方图(Histogram of Optical Flow,HOF)和运动边界直方图(Motion Boundary Histogram,MBH)特征描述子来表达手势的表观和运动特征。基于ALSTF特征的一次学习动态手势识别实验表明,与其它时空特征方法和已公开发表的一次学习动态手势识别方法相比,提出的方法得到了较高的识别准确率。对于轨迹相似而手形不同的动态手势,稀疏的ALSTF特征不能很好地表达运动手部的形状,造成了识别性能不理想。 (2)提出了一种基于肤色、灰度、深度和运动线索的运动手部分割方法。该方法不依赖现有方法经常使用的假设约束,同时解决了手脸遮挡问题。基于时空特征与手形特征的一次学习动态手势识别,很好地识别了轨迹相似而手形不同的动态手势。 为了提取运动手部的形状特征来区分轨迹相似而手形不同的动态手势,应该准确地分割出运动手部区域,为此提出了一种基于多线索的运动手部分割方法。首先,建立在线更新的肤色直方图(Online Updated Skin Color Histogram,OUSCH)模型来鲁棒地表达肤色。然后,从已经提取的MRoIs中检测满足肤色、自适应深度和运动约束的角点作为皮肤种子点。接着,基于肤色、深度和运动生长准则将皮肤种子点生长为候选手部区域。最后,提出了一种基于边缘深度梯度、骨架提取和最优路径搜索的分割方法,将运动手部区域从候选手部区域中分割出来。提取运动手部区域的仿射不变矩来表达手形特征,并与ALSTF特征共同应用于一次学习动态手势识别。实验表明,OUSCH模型具有较高的鲁棒性。在不同情形下,特别是手脸遮挡时,提出的方法可以有效和准确地分割出运动手部区域。与其它运动手部分割方法相比,提出的方法得到了较高的分割准确度。同时使用时空和手形特征进行一次学习动态手势识别时,轨迹相似而手形不同的动态手势的识别准确率明显提升。 (3)基于贝叶斯概率认知(Bayesian Probabilistic Cognitive,BPC)模型研究了人类认知水平的一次学习动态手势识别问题。BPC模型模仿了人类的一次学习认知机制,学习新的动态手势时充分利用了已掌握的动态手势先验知识。 通常的动态手势识别模型需要大量的训练样本,这并不符合人类认知的机制,因为没有考虑已掌握的动态手势先验知识对学习新动态手势的影响。在充分利用先验知识的基础上,人类可以从一个或有限几个训练样本中很好地学习新的动态手势。为此使用BPC模型来模仿人类水平的一次学习认知机制,ALSTF特征被用作模型学习的输入。首先,在参数空间采用最大似然(Maximum Likelihood,ML)方法学习动态手势的通用先验模型。通用先验模型中不包含后续学习的动态手势的知识。然后,使用一个或有限几个训练样本来更新通用先验模型,以获得新的动态手势类别的后验模型。学习后验模型的超参数时使用了变分贝叶斯期望最大化(Variational Bayesian Expectation Maximization,VBEM)方法。最后,后验知识被用于动态手势的分类识别。一次学习动态手势识别的实验结果证明,相较于视觉词袋(Bag of Visual Words,BoVW)模型,BPC模型得到了更高的识别准确率。这表明在使用先验知识的基础上,BPC模型可以从一个训练样本中很好地学习到新的动态手势知识。