论文部分内容阅读
基于计算机视觉的动态手语识别是指计算机能够从包含人手动作的视频序列中理解出人的手势含义,这需要计算机具备一定的感知、分析和判别能力。目前,静态手语识别的准确率已经达到了较高的水平,但静态手语内容不包含运动信息,仅通过判断手势姿态进行手语识别,局限性较大。动态手语在静态手语基础上还包含了手势的运动信息,具有较好的灵活性和广泛性。因此,研究动态手语识别技术,在服务听障者群体、远程控制、手语教学、互动游戏等方面有着重要的现实意义。隐马尔可夫模型(Hidden Markov Model,HMM)和动态时间规整(Dynamic Time Warping,DTW)是目前运动手势识别算法中比较常见的方法,其实质在于对时间轴的控制和把握,但上述方法计算复杂、且易受外部环境的干扰。为了让动态手语识别达到理想的性能要求,课题对运动手势识别的相关算法展开研究。研究工作主要有以下两个方面,1)针对时空上下文(Spatio-Temporal Context,STC)算法在手势检测跟踪中易发生漂移以及在目标跟踪丢失后不能重新找回目标的问题,提出了一种融合Vibe和时空上下文的手势跟踪算法。首先使用STC算法对手势预估计并进行干扰检测,当检测到干扰发生时,使用Vibe算法对手势跟踪的预估计位置进行校准,同时更新目标位置模型。该方法的优势是采用无参数模型的Vibe算法校准手势跟踪全过程,以达到良好的跟踪效果。实验结果表明,改进算法比原算法在跟踪成功率方面提高了30%,增强了运动手势跟踪效果,提高了STC算法的鲁棒性。2)为了较好地识别运动手势,充分挖掘利用局部特征的时空约束关系,提出一种基于时空兴趣点(Spatio-Temporal Interest Points,STIP)双重特征融合的运动手势识别方法。首先对运动手势视频序列分组,同时使用Harris-Corner3D算法检测运动手势视频组序列的3D兴趣点;其次通过三维方向梯度直方图(Histogramof Oriented Gradient 3D,HOG3D)和三维尺度不变特征变换(3D-Scale Invariant Feature Transform,3D-SIFT)两种直方图描述STIP;然后使用K-means算法对全部兴趣点进行聚类,得到运动手势词典库;最后融入有监督的支持向量机(Support Vector Machine,SVM)模型分类并融合双重特征对运动手势进行精准识别。实验结果表明,双重特征融合的动态手势识别方法优于3D-SIFT、HOG3D特征描述的动态手势识别方法,识别率提高到95.8%。