论文部分内容阅读
通过视觉计算对视频图像序列中的运动人手的姿态进行估计、3D跟踪,是人机交互(Human Comouter Interaction, HCI)研究中的一个基础性和关键性的课题,主要涉及到计算机视觉、人机交互理论、预测估计方法学等众多交叉学科,对其进行深入研究,对于深化智能人机交互理论和应用,推进相关学科的发展具有重要意义。单目视觉条件下基于模型的运动人手三维跟踪的主要目的是:连续获取手势帧图像相对应的三维手势的位置和姿态,为实现自然、和谐的人机交互打下良好的基础。其跟踪方法的本质主要是依据k ? 1时刻的3D手势模型参数和第k时刻的手势帧图像的数据信息,预测k时刻的3D手势,从而达到跟踪的目的。基于模型的跟踪方法特点在于建立3D手势模型特征和手势图像特征之间的映射关系,利用观察到的手势图像特征与3D手势模型进行相似性度量从而确定误差最小的模型参数,本质上是一个在高维空间进行搜索和匹配的问题。然而由于人手是一个复杂的非刚性的多链接物体,且手势本身具有多义性、多样性以及在时间和空间上存在差异性的特点,并且人手具有高自由度,手势的这种高维状态表达是姿态估计中有效全局搜索真实手势的最大障碍,假设运动过程中每个手势自由度只有两个变化趋势,那么对于具有33个自由度的人手来说,每次运算量为2 33,搜索真实手势时容易陷入“维数灾难”的陷阱,使手势跟踪实时性成为一个遥不可及的事情。本文结合计算机科学和认知心理学等相关学科,对3D运动人手跟踪进行多学科的交叉讨论和研究,提出了基于认知模型的运动人手的三维跟踪方法。主要对以下几个关键问题进行了研究:(1)复杂背景下基于空间分布特征的的手势识别。手势识别是先进人机交互研究的一项关键技术。基于自然人手的新型的人机交互理论和应用中,要求用户的手势能处于自然状态,使人能够以自然的方法进行人机交互。本文作者结合手势的全局特征和局部特征对手势进行了更为全面的描述,并且在识别过程中引入“搜索窗口”和“随机采样机制”。“搜索窗口”的引入,实现了准确定位一定尺寸的只包含手势区域的“搜索窗口”,后续的识别过程仅在该“搜索窗口”内进行。一方面缩小了预处理范围,减少了不必要的计算过程,提高了识别速度;另一方面,避免了噪声点和类肤色的干扰,能够做到有大量噪声点和人脸干扰时正确识别手势,提高识别率;结合手势的形状特征引入的随机采样,提高了手势识别速率。本算法不仅能识别总体区分度比较小的手势,且能够识别存在一定弯曲程度的手势,为和谐、自然的人机交互创下了基本条件。(2)提出了基于认知模型的运动人手的三维跟踪方法。自然人机交互过程中,处处都存在着操作者的心理活动,该心理活动直接影响到操作者的运动形式,本文运动人手跟踪方法以认知心理学、行为科学等为理论基础,研究操作者在特定实验条件下的认知心理特征与人手运动的行为特性。首先,运用观察法、实验法、口语报告法等心理学分析方法研究特定人机交互条件下不同操作者的认知心理特点和手势运动特点,并经过训练使不同的操作者实现同一个完整的运动过程,并借助于虚拟辅助平台获取运动数据,然后对数据进行认知曲线拟合,使手势运动特点具体化,数字化,为后续的采样做铺垫。并在此基础上分析数据状态变化趋势,以概率的方式对运动手势数据进行分类,为粒子滤波采样方法提供了一种高效,统一的数学认知模型,以此为基础的采样算法可以避免盲目的搜索,实现高维空间下跟踪手势全自由度的运动姿态时减少对动态模型的依赖,而是更多地信任认知模型提供的运动线索,实验结果表明,与传统滤波算法相比,基于认知模型的手势跟踪算法可以利用更少的运行时间达到更高的跟踪精度。本文的许多研究仍然需要更进一步的探索研究,在自然的人机交互过程中,处处都存在着操作者的心理活动,本文对操作者的心理特征研究只是基于部分简单的运动场景,存在着局部性和肤浅性,普通情况下操作者的普遍心理特征还需要进一步的探索研究。