论文部分内容阅读
人体动作识别作为现今计算机视觉中的热门领域,正逐渐广泛应用于人机互动、视频监控等领域。总体来说,动作识别包括特征提取、动作表示及动作分类三部分。由于动作的类内波动、类间相似等特性,当前的动作识别研究主要集中在如何提取具有较好鲁棒性的特征以及如何利用这些特征进行动作表示。为此,本文提出了一种基于运动块的特征提取方法,并提出了两种动作表示与分类方法:基于关键帧的动作表示与分类、基于原语的动作表示与分类。这两种动作表示与分类方法在公开的KTH和UCF运动数据集上,取得了很好的识别效果,充分证明了这两种动作表示与分类方法的实用性与有效性。为了表征动作的运动特性,同时抵抗遮挡,本文首先从人体边界框检测出发,提出一种基于图聚类的运动块提取方法。通过建立块内光流直方图并计算其熵值,进一步筛选出具有更好鲁棒性的运动块。为了抵抗尺度变化对动作产生的影响,计算运动块重心与边界框重心的相对距离并做归一化,同时加入运动块的运动方向,得到动作的运动特征。同时,为了表征动作的形状特性,本文根据人体边界框,对视频中的每一帧提取梯度直方图。研究表明,人类通过关注部分具有代表性的帧(关键帧)就可以识别动作,所以本文提出一种基于运动块的关键帧提取方法,通过检测动作中的运动突变,从大量视频流中筛选出关键帧,从而大大减小了后续特征提取的计算量。为了充分地表征动作的运动与形状特征,本文基于混合高斯模型和词袋框架,利用关键帧的运动块与梯度直方图特征,进一步提取动作的运动与形状描述符。最后通过对描述符的线性组合,并利用最近邻分类器进行动作识别。基于关键帧的动作表示方法虽然降低了特征提取的计算量,但是易受运动突变等噪声的影响。而且,基于混合高斯模型和词袋框架的运动与形状描述符的性能对于初始参数很敏感,动作表示时也没有考虑动作的类间相似性。针对以上问题,同时考虑到动作是一个连续的过程,它可以由一系列子动作(原语)构成,本文提出一种基于分层聚类的原语提取方法,自适应地决定原语个数,同时去除动作间的冗余信息。为了提高鲁棒性,本文采用混合高斯模型对原语的统计特性进行特征表示。利用运动块及梯度直方图特征,得到动作的运动与形状原语,同时为了保持动作中各个子动作间的时间相关性,对动作进行原语的时间序列表示,最后通过序列匹配对动作进行分类。