人机交互动态手势识别及其一次学习认知模型研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:xfjs08jx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一种非侵入式的交互接口,基于视觉的动态手势识别可以实现自然、方便的人与机器人交互(Human-robot Interaction,HRI),简称人机交互。近年来,随着一次学习(One-shot Learning)认知理论的发展,基于一次学习的动态手势识别研究受到了越来越多的关注,逐渐成为当前的一个研究热点。一次学习是人类水平的概念认知方法,人类仅从一个或有限几个例子中就可很好地学习并泛化新的知识。一次学习动态手势识别可以使机器人以更符合人类概念认知的机制来学习和识别动态交互手势。由于只需要一个或少数几个训练样本(通常只有一个),当用户自定义新的交互手势时,不需要复杂枯燥地采集训练样本,也不必费时地学习手势模型。这都大大提高了HRI的人性化和舒适度。  然而,基于一次学习的动态手势识别面临两个重要挑战:(1)如何从非常有限的训练样本中精确提取区别性特征来表达动态手势;(2)如何根据非常有限的训练样本构建符合人类概念认知机制的学习模型。课题针对上述两个挑战性问题进行了探索,主要研究工作如下:  (1)噪声和全局经验运动约束严重影响了时空特征的精确与充分提取。为解决这些问题,提出了一种基于RGB-D视频数据的自适应局部时空特征(Adaptive Local Spatiotemporal Feature,ALSTF)提取方法。  首先根据灰度和深度速度的方差信息来自适应提取运动感兴趣区域(MotionRegions of Interest,MRoIs),以大大降低噪声对精确检测关键点的影响。然后在每个MRoI内检测Harris-Affine角点作为初始兴趣点,当初始兴趣点的深度、灰度速度与深度速度满足局部约束时即为关键点,局部约束在每个MRoI内自适应确定。在进一步滤除噪声额同时,可以从运动人体部位(Moving Body Parts,MBPs)提取到精确和充足的关键点。最后在扩展的梯度和运动空间计算并联合三维稀疏运动尺度不变特征变换(3D Sparse Motion Scale-invariant Feature Transform,3DSMoSIFT)、方向梯度直方图(Histogram of Oriented Gradient,HOG)、光流直方图(Histogram of Optical Flow,HOF)和运动边界直方图(Motion Boundary Histogram,MBH)特征描述子来表达手势的表观和运动特征。基于ALSTF特征的一次学习动态手势识别实验表明,与其它时空特征方法和已公开发表的一次学习动态手势识别方法相比,提出的方法得到了较高的识别准确率。对于轨迹相似而手形不同的动态手势,稀疏的ALSTF特征不能很好地表达运动手部的形状,造成了识别性能不理想。  (2)提出了一种基于肤色、灰度、深度和运动线索的运动手部分割方法。该方法不依赖现有方法经常使用的假设约束,同时解决了手脸遮挡问题。基于时空特征与手形特征的一次学习动态手势识别,很好地识别了轨迹相似而手形不同的动态手势。  为了提取运动手部的形状特征来区分轨迹相似而手形不同的动态手势,应该准确地分割出运动手部区域,为此提出了一种基于多线索的运动手部分割方法。首先,建立在线更新的肤色直方图(Online Updated Skin Color Histogram,OUSCH)模型来鲁棒地表达肤色。然后,从已经提取的MRoIs中检测满足肤色、自适应深度和运动约束的角点作为皮肤种子点。接着,基于肤色、深度和运动生长准则将皮肤种子点生长为候选手部区域。最后,提出了一种基于边缘深度梯度、骨架提取和最优路径搜索的分割方法,将运动手部区域从候选手部区域中分割出来。提取运动手部区域的仿射不变矩来表达手形特征,并与ALSTF特征共同应用于一次学习动态手势识别。实验表明,OUSCH模型具有较高的鲁棒性。在不同情形下,特别是手脸遮挡时,提出的方法可以有效和准确地分割出运动手部区域。与其它运动手部分割方法相比,提出的方法得到了较高的分割准确度。同时使用时空和手形特征进行一次学习动态手势识别时,轨迹相似而手形不同的动态手势的识别准确率明显提升。  (3)基于贝叶斯概率认知(Bayesian Probabilistic Cognitive,BPC)模型研究了人类认知水平的一次学习动态手势识别问题。BPC模型模仿了人类的一次学习认知机制,学习新的动态手势时充分利用了已掌握的动态手势先验知识。  通常的动态手势识别模型需要大量的训练样本,这并不符合人类认知的机制,因为没有考虑已掌握的动态手势先验知识对学习新动态手势的影响。在充分利用先验知识的基础上,人类可以从一个或有限几个训练样本中很好地学习新的动态手势。为此使用BPC模型来模仿人类水平的一次学习认知机制,ALSTF特征被用作模型学习的输入。首先,在参数空间采用最大似然(Maximum Likelihood,ML)方法学习动态手势的通用先验模型。通用先验模型中不包含后续学习的动态手势的知识。然后,使用一个或有限几个训练样本来更新通用先验模型,以获得新的动态手势类别的后验模型。学习后验模型的超参数时使用了变分贝叶斯期望最大化(Variational Bayesian Expectation Maximization,VBEM)方法。最后,后验知识被用于动态手势的分类识别。一次学习动态手势识别的实验结果证明,相较于视觉词袋(Bag of Visual Words,BoVW)模型,BPC模型得到了更高的识别准确率。这表明在使用先验知识的基础上,BPC模型可以从一个训练样本中很好地学习到新的动态手势知识。
其他文献
软测量技术是当今过程检测和过程控制技术的研究热点,由于实际工业过程对象呈现出日益复杂、工况时变以及过程变量众多且存在严重的非线性等特性,基于多元线性回归理论的传统
随着自主水下机器人(AUV,Autonomous Underwater Vehicle)技术的不断发展,AUV的使命越来越复杂,而且很多使命要在复杂动态环境下完成,这就对AUV的自主能力提出了更高的要求。而实
随着人类经济发展的需要,陆地石油开采已不能完全满足社会生产需求。从上世纪五六十年代开始,人们将视野逐渐转向了海洋油气开采。但是海洋油气开采具有作业环境恶劣、开发困
随着机器视觉理论的发展,双目立体视觉技术在工业发展中发挥了越来越重要的作用,具有广泛的应用性。移动机器人导航技术是移动机器人研究领域中的一项关键技术,涉及到机器人的感
为了应对能源危机与环境问题,维持人类社会的可持续发展,可再生能源开始受到人们的重视。太阳能因具有储量丰富、分布广泛、使用清洁无污染等特点,成为人们关注的焦点。其中,
压气机在当前社会生产生活中起着越来越大的重要作用,而其稳定运行则是该作用得到保证的关键。为了更好的控制压气机的稳定运行,必须更好的了解压气机的工作特性。在该问题上
交通作为城市经济活动的命脉,对城市的经济发展、人民的生活水平提高起着至关重要的作用。目前,北京的机动车数量迅猛增长,而道路增长速度和车辆的增长速度严重脱节,这是造成
随着生产实践和科学研究的深入,人类面临的优化问题也越来越复杂,传统优化方法已不能在有限开销内找到满意解,所以需要不断的找出更好更快的优化算法来解决问题。粒子群算法(
随着计算机视觉技术与机器人技术的蓬勃发展,服务机器人逐渐走进人们的生活当中。作为实现机器人与人类交互的关键性技术,行人跟随技术受到越来越多研究者的关注。目前在行人目
试井是油藏工程的重要手段,而其核心是压力试井,因此地层压力测量是石油试井技术中必不可少的工作。目前国内油田多使用电子压力计来实现压力数据的采集、存储和数据浏览的功能