论文部分内容阅读
手语是聋哑人日常生活的主要语言,同时也是他们和正常人交流的主要方式之一。而大多数正常人并未经过专业的手语培训,使得聋哑人无法同其进行无障碍地交流。为了解决这个问题,从上世纪90年代开始便有许多学者开始从事手语识别的研究,旨在将手语动作通过计算机编程实现将其转换为便于正常人理解的文本或者语音信息。因此手语识别具有极大的社会意义。在手语识别领域,有两个至关重要的问题。一是如何获取并设计鲁棒高效的手语动作特征,二是如何对手语动作特征建立鲁棒的识别模型。对于第一个问题,从昂贵复杂的数据手套到颜色手套再到体感设备,数据获取越来越方便可行,特征设计主要从运动轨迹和手型变化上进行描述。对于第二个问题,对手语动作进行建模识别主要是借鉴于语音识别,利用机器学习理论中的一些模型。例如利用可以计算不等长序列相关性的动态时间规整算法以及机器学习模型支持向量机、高斯混合模型、隐马尔科夫模型、条件随机场、人工神经网络等等。基于此两个出发点本文的主要工作可归纳如下:首先,手语动作特征包括手语动作的轨迹特征和手型特征。轨迹特征包括运动的方向,运动轨迹的形状,以及运动轨迹的位置。手语动作的运动方向利用方向位移直方图刻画,将空间分成多个二维平面考虑手部在平面中各个方向的位移量,组合所有方向的直方图最终对方向信息进行表达。运动轨迹的形状本文提出采样形状上下文描述子进行刻画,在提取轨迹特征的形状上下文信息时需要对轨迹进行预处理,即基于密度的上采样处理,使得轨迹形状看起来更加的均匀平滑,最后再对每一个采样点进行形状上下文描述子的提取。对于轨迹的位置信息,本文采用非手骨骼点相对于手部骨骼点的位置进行刻画。在手型描述中,经过对视频信息的预处理,获取以手部骨骼点为中心的局部区域,区域中包含了手型,再对其提取HOG特征,最终将手语序列的手型特征利用HOG特征序列描述。其次,我们提出的自动确定隐状态数目的FHMM模型可以根据手语动作本身特性自动确定建模所需参数。我们利用手型之间的特征差异将视频中的手分成若干段,其中相似的手型归为同一段。由于在特征描述中的不同,不同的特征适用于不同的识别模型,因此还需要对多个特征的识别结果进行融合。本文提出了两种融合方法,一种为基于帧平均概率的计算方法,另一种为对输出概率进行重新建模分析的方法。实验证明基于可变隐状态数目的模型具有较好的识别结果,结合适当的结果融合方法也能一定程度提高手语识别正确率。此外,我们将部分算法整合到系统当中,搭建了实时手语识别演示系统。并对我们的数据采集系统和演示系统进行了简要的介绍。