论文部分内容阅读
人体动作识别是计算机视觉领域中非常重要的研究任务之一。随着高科技信息化时代的到来,越来越广泛的实际应用对该技术提出了更高的要求。首先,现有的动作识别方法多针对于视角固定的场景。而在实际应用中,由于摄像机的固定位置和拍摄视角变化很大,动作视频的视角差异会非常显著。因此,跨视角动作识别成为亟待解决的问题。即如何利用某一视角下的运动数据实现对另一视角运动样本的分类识别。同时,随着质优价廉的深度摄像机的出现,基于深度数据的视频分析受到越来越多的关注。与传统颜色数据相比,深度数据直接反映运动特性,并且对环境变换的敏感度较低,非常适用于对人体动作的识别。设计实现针对多源数据的动作识别系统也尤为重要。另外,现有的跨视角动作识别方法多需要较多的参考信息,但在实际应用场景中,能得到的信息非常有限。因此,需要设计对数据要求更低、监督性更弱的识别方法。 本文致力于解决针对多源数据的跨视角动作识别问题。主要从基于时序信息的跨视角动作识别方法和基于深度学习的动作识别方法两个方面进行研究和讨论,具体的研究内容和贡献总结如下: 第一,提出了运动强度时序累积特征(SMA)。该特征利用视频序列时序结构来描述运动特性。由于时序信息的视角不变性,SMA特征对视角变换具有很强的鲁棒性。同时,为了适用于不同的应用场景,我们提出了三种相互独立的提取运动强度的方法。其中,基于Cuboid检测器的方案和基于Harris3D检测器的方案可应用于颜色和深度数据视频。基于韦伯定律的感知密集采样方法专门针对深度数据视频。该方案设计时序运动筛选策略提纯密集采样得到的时空感兴趣点,以提高特征的描述力。该SMA特征不仅对不同的动作类别有很好的判别力,而且对显著的视角变换有很强的鲁棒性。 第二,提出了弱监督分类学习方法。针对于在目标视角下没有标注信息的跨视角动作识别问题,我们的方法以弱监督的形式进行学习。该方法首先利用SMA特征的视角不变性,通过构建粗粒度类别来生成目标视角样本的标注信息。然后,利用源视角和目标视角的视频样本数据学习跨视角度量方法。该方法能够滤除不同视角下相同运动类别视频样本的数据差异性,同时保留足够的运动特性信息,以提高特征的描述力和判别力,进一步提高跨视角动作识别的效果。 第三,构建了基于局部深度特征的深度网络架构,提出了基于比较编码特征的深度学习特征(DA-CCD)。该方法利用深度架构将局部特征映射为高层语义特征表达。其深度结构由多层去噪自动编码机构建而成,有很强的特征学习能力。由此构造的DA-CCD特征的判别力强、维度低,且对视角变换具有鲁棒性。另外,该方法不需要场景结构信息和人体关节骨架信息,这样可以更灵活地应对实际应用场景。