论文部分内容阅读
手势识别是人工智能一个重要的领域。在虚拟现实,聋哑人交流,机器人控制等方面均有广泛的应用前景。手势识别领域的两大研究重点为孤立词手势识别和连续词手势切分的问题。手势识别根据使用的载体可以分为基于视觉的手势识别、基于触摸屏的手势识别、基于传感器的手势识别、基于可穿戴设备的手势识别等。基于视觉技术的手势识别受光照、环境等因素的影响大,限制了不同场景的手势识别技术的应用。普通的视觉图像只包括二维平面的信息,传感器相关的手势识别方法通过使用不同的传感器可以获得包括深度的三维空间信息、手部运动的加速度信息等,为手势识别的研究提供了新的可能。本文对目前手势识别领域相关问题的解决方案做了研究并做出总结,在基本的理论基础下介绍了几种经典的手势识别算法。通过对不同算法应用于手势识别领域的了解,发现其中还有一些待改进的问题。为解决相应遇到的问题,本文基于两种算法分别提出了解决孤立词手势识别和连续词手势切分的方法。本文的主要贡献如下:首先,对手部姿态数据预处理的过程中,对于离散化处理使用的聚类算法性能受预设置参数影响大的问题,本文提出了一种选择状态的方法对模糊C均值聚类进行改进,模糊C均值聚类算法在手势识别的场景下可以自动确定合适的聚类数量和高质量的初始聚类中心。一个更有效的聚类结果可以有效的提升手势识别的性能,高质量的初始聚类中心可以加快聚类算法的收敛速度并避免聚类结果进入局部最优解。其次,手势在完成的过程中,由于完成手势的个体行为差异性、噪声的影响、数据量有限等,可能导致隐马尔可夫模型在手势建模的过程中,参数中的发射矩阵为稀疏矩阵,即产生数据稀疏的问题。数据稀疏可以理解为某种手势的某种状态数量为0,状态转移概率出现0概率,导致手势识别过程对噪声等离群点的影响比较敏感。为了解决数据稀疏的问题,本文采用了自然语言处理中数据平滑的思想对隐马尔可夫模型进行改进。通过给隐马尔可夫模型的发射矩阵添加一个自适应的微弱扰动值,避免其成为稀疏矩阵。减少模型对噪声等离群点的敏感程度。实验证明改进后的模型相比在手势识别准确率等方面有明显的提高,召回率和准确率可达93.88%和96.92%。最后,通过对动态时间规划算法的研究,发现其在手势识别领域应用的过程中,有模板选取困难、选取的模板不具有代表性和模板长度过长影响计算效率等问题。本文提出了一种动态时间规划算法选取合适全局模板的方法。利用统计学的知识,统计不同手势具有代表性的数据,组成全局模板。并结合不同手势的长度特征,提出了针对手势切分的方法。对比实验表明,本文提出的算法与不使用全局模板的算法在准确率和时间效率等方面均有明显的提高,召回率和准确率可达99.40%和95.60%。