论文部分内容阅读
实时的人体动作识别是人机交互领域一个重要且富有挑战性的研究课题。在沉浸式虚拟现实领域,为了达到更好的交互效果,计算机需要实时、准确地捕获和识别人体动作,并将其解析为用户对计算机发出的有完整语义的指令,从而使得人与机器之间可以更加自然、有效地交流。然而目前很多动作识别交互系统还达不到很好的实时应用体验,瓶颈在于动作捕获和识别的表现不理想,尤其是动作识别的实时性和准确性不够。本文针对沉浸式虚拟现实游戏系统实时的人体动作识别展开研究,主要在已有实时动作识别框架的基础[1]上,对动作数据的特征提取和动作识别流程和方法进行了相应的改进,弥补了其动作识别灵敏度和准确度以及扩展性的不足,并对复杂指令动作的识别提出了相应的方法。本文的主要工作和研究成果包括:(1)提出层次化的识别框架,将动作分成不同级别,分别为L1M(动作识别原子性动作,不能再分割)、L2M(具有简单词义的动作,由L1M组成)和L3M(具有语义的动作,由L2M组成),然后进行流水线式地识别。已有的框架对不同长度的动作使用同样的识别方法,这样直接影响了系统的动作识别效果和可扩展性,若加入与动作数据采样窗口大小差异较大的动作类,动态时间规整算法(DTW, Dynamic Time Warping)不但失去了应用价值,而且会对动作数据造成破坏,从而影响系统对动作的识别效果,将长的动作分成几个简单的动作,可以利用简单动作对于动作走样和节奏快慢差异的不敏感性,提高框架对动作数据时空差异的处理能力。(2)基于奇异值分解(SVD, Singular Value Decomposition)的动作数据特征提取方法,相比于已有的基于动作曲线及人体关节相关性的动作特征,该方法可以最大限度地去除动作数据中的冗余数据,是对动作数据更好地抽象和代表,有利于对动作类内部的差异进行很好地容错,从而也为分类算法的分类精确度打好了基础,(3)提出了基于类内和类间距离的双阈值筛选器(Dual-thresholdScreen)和支持向量机(SVM, Support Vector Machine)的组合式分类器对基础动作类进行分类识别。该组合式分类器在不损失动作的分类准确度的前提下可以有效提高识别效率,它结合了支持向量机较高的分类准确性和双阈值筛选器较低的计算复杂度的优点,提高了该识别框架的实时性和可扩展性。(4)根据交互需求设计了相应的随机上下文无关文法(SCFG,Stochastic Context-free Grammar),基于文法规则和概率进行指令流分析,能够处理复杂、灵活的具有完整语义的指令动作序列。本文设计了一系列实验来验证所提出的框架在实时三维人体动作识别上的有效性和实时性,实验结果表明本文所提出来的框架和方法可以进行有效的、实时的动作识别。