论文部分内容阅读
手语识别研究的目的是增进聋人与听力健康人之间无障碍的交流,提高计算机对人体语言的理解能力。非特定人手语识别是推动手语识别系统实用化所必须解决的问题。目前,非特定人手语识别与特定人手语识别性能相比还有较大的差距,其主要原因在于数据本身的差异性矛盾与训练样本的匮乏。数据差异性矛盾使得非特定人手语识别中提取手语数据有效的共同特征非常困难。在实际应用中,模型的表达能力与样本的缺乏之间的矛盾已经成为制约识别系统效果的瓶颈。为解决上述两方面的问题,本文将流形思想结合到传统的HMM手语模型中,主要的研究工作如下:1.通过Isomap算法直观展现手语数据的流形结构。同类数据集在几何上具有某种由内在不变性形成的嵌套流形结构,这种结构本身对应了单一的流形概念。Isomap方法是最常用的流形可视化算法,其对手语数据的处理结果证明了手语数据本身包含着流形结构,可将HMM模型中的状态类与流形概念对应起来,挖掘其内在的不变性。2.根据Isomap可视化结果,提出一种TV/HMM手语模型。利用流形概念具有一定学习和推理能力的优点,引入切向量来线性表达数据的可变性,对类内允许的变化程度进行有效建模,从而使分类器对某些不造成类别变化的数据变化不敏感,并且在训练集较小的情况下,通过对几何结构的描述,获得对数据个体差异的形式化描述。TV/HMM模型既加入了对特异性因素的处理,又弥补了训练数据不足造成的缺陷。3.实现了基于TV/HMM的手语词识别系统。系统利用最大似然估计从训练数据中学习切向量,确定最佳参数和迭代次数后,通过实验证明了TV/HMM模型相对于传统HMM模型的优越性。在训练集较小、不显著增加时间复杂度的情况下,TV/HMM模型对系统性能有很大的改善,可将非特定人的识别率由70.38%提高到72.44%,改善度达到6.96%;加入mean-shift类内向内生成的虚拟数据后,非特定人的识别率由70.56%提高到72.94%,改善度达到8.07%。