论文部分内容阅读
手语识别作为模式识别研究中的一个热点问题,近年来受到众多研究者的重视。手语识别能够在聋哑人与健听人之间架起桥梁,从而促进社会和谐发展;手语是一种相对规范的手势集合,手语识别为其它手势分析提供借鉴;手语识别涉及计算机视觉、模式识别、机器学习、智能人机接口等研究领域,其研究有助于促进这些领域内其它类似问题的研究。总之,手语识别具有重要的社会现实意义和理论研究价值。
目前,基于特定人的手语识别系统性能较好;然而,非特定人手语识别的性能下降却很明显。自适应手语识别利用新用户数据对初始模型的参数进行修正,使得修正后的模型更适合于新用户。根据自适应数据所属类别是否己知,自适应分为有监督自适应和无监督自适应。有监督自适应需要用户显式采集自适应数据,对系统的易用性造成损害。无监督自适应的数据可以由系统自动采集,易用性更好。然而,使用无标号数据之前必须对其进行标注,以确定其类别。对于无监督的手语识别问题,本文提出一种基于假设比较导引交叉验证的无监督自适应方法,其创新点包括三个方面:
1)提出基于假设比较导引交叉验证的无监督自适应方法。无监督自适应的核心问题是:如何有效利用大量的无标号数据对模型参数进行修正。最直接的无监督自适应方法是自学习无监督自适应方法。在自学习自适应方法中,由于对无标号数据进行标注的模型和待适应模型为相同模型,因此出现错误累积和过适应问题。基于交叉验证的无监督自适应方法通过引入交叉验证思想,将对数据进行标注的模型和待适应的模型分割开来,从而避免出现错误累积和过适应。通过引入假设比较,可提高标注的准确率,提升自适应的性能。
2)建立手语识别无监督自适应数据库。由于无监督自适应方法是采用系统自动累积的大量无标注数据样本对模型参数进行修正,因此,在验证算法的数据库中,每类数据必须包含大量的样本。然而,据我们所知,当前的手语数据库都是面向特定人识别或有监督自适应识别,样本数目较少。因此,本文创建了“上海交大手语数据库”,其中每个类别包含样本多达100个,可以有效验证无监督自适应方法。该数据库未来有望成为验证识别无监督自适应方法的标准数据库。
3)为语音识别、手写体识别等的无监督自适应问题提供借鉴。基于假设比较导引交叉验证的无监督自适应方法独立于手语识别领域,可直接应用于语音识别、手写体识别等其它时序模式识别的无监督自适应问题。
除去自适应问题以外,在复杂动态背景下,遮挡、运动、类肤色物体等的存在使得手部区域的定位和跟踪变得困难。本文提出了一种利用深度信息并结合动态空时规整算法的手势识别框架,尝试解决复杂动态背景下手势识别的问题。当前的计算机视觉技术在复杂动态背景下提取手部精准特征仍旧困难,动态空时规整算法能够在粗略提取手部区域特征时进行手势识别,但是时间复杂度较高。如果利用深度信息辅助特征提取,有助于减少时间复杂度。
本文通过对手语识别的无监督自适应问题和复杂动态背景下的手势识别问题进行深入地探讨和研究,为未来手语识别系统真正走向实用化提供了必要的技术储备,同时也为相关领域研究提供了借鉴和参考。