论文部分内容阅读
基于视频的人体动作识别在安全监控、人机交互、虚拟现实、基于内容的视频检索等众多领域中有广泛应用。其基本任务是由计算机提取和描述人体动作的本质特征,实现动作类型的识别。因此建立具有良好区分度的动作特征描述符是识别动作的一个关键问题。但是由于人体属于非刚体结构,导致不同类型的动作千差万别,即使是不同人或者同一人不同次执行同一种动作,动作的特点也不相同。如何保证不同类型的动作描述符具有高区分度的同时,同一类动作的类内差异最小化,是目前基于视频的人体动作识别领域的一个主要研究方向。 本文针对上述问题,根据目前基于视频的人体动作识别研究的两大趋势:基于局部兴趣点特征和基于密集特征表述的人体动作识别方法,提出了基于超兴趣点和基于全局密集特征的两种分层时空特征模型的人体动作识别框架。通过建立分层时空特征模型,不仅可以描述底层局部或全局的人体运动或外观变化特征,还能够建立特征间的整体时空结构分布信息,减少视频采集的限制条件,降低背景、动作执行方式等可变因素对动作识别的影响。在不增加算法复杂度的基础上,提高识别算法的识别率。利用公共基准人体动作数据库对本文方法进行了评价,实验结果表明,本文提出的基于分层时空特征模型的动作识别方法是可行有效的。主要贡献总结如下: 第一,提出了一种新的基于帧差法的兴趣点检测方法和基于帧差兴趣点的局部显著变化区域特征提取描述算法。首先借鉴帧差思想同步实现视频中人体所在区域和兴趣点的检测。检测到的兴趣点主要集中在有比较强烈运动变化的人体局部区域(如四肢区域),根据兴趣点相对人体结构的位置分布,可以有效提取描述人体动作的显著变化区域,特别的是不同动作类型的局部显著变化区域的位置分布根据检测到的帧差兴趣点是动态变化的,可以有效区分不同的动作类型。 第二,在兴趣点提取检测的基础上,提出了超兴趣点分层时空特征模型。该模型通过分析底层兴趣点特征间的时空相似度,将一定时间范围内分布在同一局部肢体上的兴趣点整合聚类为属于高层特征的超兴趣点,并以超兴趣点为基本单位,描述超兴趣点的特征信息,和所有超兴趣点之间及超兴趣点相对人整体动作姿态的时空关联结构。解决原有兴趣点特征之间时空关系缺失的固有问题。 此外,动作兴趣点特征受时空位置和尺度变化影响,不同动作类型的描述符会存在较高的类间相似性和较低的类内区分度,降低动作识别率。因此在构造超兴趣点特征的过程中提出兴趣点规格化方法,解决人体尺度、位置变化多样性问题。 第三,提出了基于全局密集特征的分层时空特征描述和识别框架。首先计算反映动作全局结构特点的Gist空域特征,然后仿照人视觉注意力观测原理,分别从时空域同步特征提取和局部时空区域编码两个不同角度,提取出高维特征中时间域显著变化的主要特征分量,构造紧凑的动作时空域特征描述符,减少高维特征冗余信息,提高模型识别准确率。 时空域同步特征提取在保持整体运动结构不变的情况下,提取动作的有显著特征变化的网格区域及其中主要的频谱特征向量,直接忽略其他特征信息;而局部时空区域编码根据不同区域动作变化的频度和复杂度,将原始特征划分为多个特征子空间,强化反映显著动作变化的子空间,提高动作描述符的区分度。实验比较结果证明对于真实场景的动作,由于后者对背景影响具有较强的抗干扰性,因此识别效果更好。 第四,将二维平面的局部自相似思想拓展到动作视频的空时三维空间,通过对动作全局特征空域、时域两个层次的局部自相似计算和训练,生成不同动作类型的局部自相似分层时空特征模型,揭示各自动作类型独有的显著特征子区域的位置分布关系。并将动作分类问题转化为寻找测试视频的最优局部自相似分层时空特征模型问题,同时将局部时空区域编码的初步分类结果作为先验知识,参与特征模型的选择,提升真实场景的人体动作识别性能。