论文部分内容阅读
作为人与人之间交流信息和交换意图的主要通道,手势在人机交互过程中起着无比重要的作用。借助手势,可以使普通的用户和机器进行自然、友好的交互,使得机器能“读懂”人的语言,并做出相应的动作。本文从自然和谐的人机交互的角度出发,结合手势的形状特征,主要研究了基于视觉的手势识别相关算法。针对手势形变对手势识别精度的影响,在重点研究简单、有效的手势特征提取的基础上,实现了静态和动态的手势识别。具体的研究内容如下:针对手势在表示过程中因指关节或部分结构形变对手势识别精度的影响,提出了一种基于内距离形状上下文和词袋模型(Inner-Distance Shape Context-Bag of Words, IDSC-BOW)的手势识别方法。该方法首先用椭圆肤色模型分割得到二值手势区域,提取手的轮廓;然后通过均匀采样获取轮廓采样点,将手的内距离形状上下文特征进行K-means聚类生成视觉词典。通过生成的视觉词典,将表示手的内距离形状上下文特征映射为视觉单词集合,并分别统计各视觉单词出现的频率,得到BOW向量并进行归一化;最后,采用支持向量机分类器进行分类。实验结果表明:该方法对“0-9”十种手势具有较高的识别率,并对手的关节和部分结构形变具有良好的鲁棒性。针对指关节或部分结构变化导致手势识别精度低,以及直接采用形状匹配的方法计算量较大等问题,提出了一种基于内距离轮廓点分布特征(Inner-distance contour point distribution features, IDCPDF)和直方图匹配的手势识别方法。该方法首先用椭圆肤色模型分割得到二值手势区域,获取手的轮廓;然后提取手势的IDCPDF;最后,采用直方图匹配的方法来度量IDCPDF的相似性并进行分类。实验结果表明:该方法描述的是极坐标下手势轮廓点的分布情况,不仅反映了手势形状的显著信息,且在保证手势识别精度的前提下,降低了手势特征提取和匹配过程中的计算量,具有较好的实时性,同时对手的关节和部分结构形变具有良好的鲁棒性。虽然本文在基于形状特征的手势识别方面进行了一系列的研究,但考虑到手势识别的实用性,在复杂背景下的手势分割和较少依赖于分割的手势表征,以及通用的手势识别系统等方面还需要进行进一步的探索与研究。