论文部分内容阅读
人体动作的理解与识别以及运动分割对许多智能系统来说是至关重要的,并广泛的应用于智能视频监控、视频分析与检索、人机交互以及机器人等领域中,是目前学术界和工业界研究的热点问题。目前,基于RGB视频的人体动作识别被广泛的研究并取得了丰硕的成果,但仍然存在着许多挑战问题需要解决,如视角的改变、光照条件的变化、遮挡以及人体姿态的不确定性等。因此,仅依赖于RGB模态中提供的表观与运动信息无法有效刻画人体动作的变化情况。近年来,随着低成本深度相机的发明,尤其是微软公司Kinect的出现,深度相机为直接获取3D数据提供了新的可能。由于深度相机可以同时获得人体动作的RGB与深度(包括3D人体骨骼关节点位置信息)两种模态的数据,更有利于成功的动作识别,因此基于深度相机的动作识别成为当前人体动作识别研究领域中的一个热点。运动分割是计算机视觉研究中的另一个经典问题。在仿射成像模型下,基于跟踪的特征点的运动分割,其本质上是一个子空间聚类问题,每个子空间对应着一类不同的运动。基于子空间的运动分割方法要解决的核心问题是构造具有严格块对角化结构的相似矩阵。本论文针对以上两个问题,研究基于RGB-D深度传感器的动作识别与基于RGB相机的运动分割。其主要工作有以下6个方面:(1)针对深度模态的人体动作数据的特征提取问题,基于骨架关节点与深度映射数据,提出了一种局部曲面几何特征,能够联合描述人体动作的几何表观与姿态信息;通过构造时间金字塔,利用协方差描述子对动作的时间演化信息进行刻画,有效实现了对动作在时-空域上的特征表征。(2)为充分利用RGB模态与深度模态这两种不同特征数据,提取了 RGB模态下梯度直方图、光流直方图和运动边界直方图描述子来有效编码人体动作密集轨迹的运动与表观信息。在此基础上,结合深度模态的特征数据,提出了一种二阶段的多模态融合框架,该框架充分利用了深度模态与视觉模态信息的互补性,综合运用人体运动、视觉与几何表观和轨迹形状信息,实现了 RGB视觉特征级与深度模态级上的多层级融合。(3)为了最大化消除编码系数的类间相关性并同时提升在类别子字典上表示系数的类聚性,提出了一种联合结构化稀疏表示与低维嵌入的字典学习模型,并设计了一种有效的优化求解算法。该模型通过低维投影矩阵的学习来增强字典的表示能力,并进而改进稀疏表示模型的鲁棒性。(4)不同类型特征对不同类别动作的判别能力有着较大的差异,简单的均衡组合这些特征必将削弱具有强判别能力的某些特征,为此提出了一种结构化多视特征学习模型。该模型同时从多视特征的“视-间”和“视-内”来进行特征的融合,筛选出具有判别力的视中所包含的大多数具有强区分力的特征和不具有判别力的视中所蕴含着的具有强区分力的一小部分特征。对于所提出的学习模型,设计了一种迭代优化求解算法并从理论上说明了其收敛性。(5)对于基于子空间聚类的运动分割问题,现有方法中构造的相似矩阵的块对角化结构特征不够明显,文中通过引入局部特征相似性先验信息来引导整个编码过程,提出一种Laplacian结构化表示模型来增强这类方法的性能。在该模型的基础上,设计了一种有效的交替方向乘子法来进行优化求解,并对稀疏子空间聚类和低秩表示这两种方法进行了相应扩展。(6)对于人体动作识别,在6个国际公开并被广泛使用的标准人体动作测试数据集上对以上方法进行了比较深入而系统的实验,取得了较好的实验结果,验证了所提出方法的有效性。对于运动分割,在两个国际公开的标准运动分割测试数据集上进行了实验,较已有的方法在分割精度上获得了较大幅度的提升。