基于多特征融合的行为识别算法研究

论文部分内容阅读

人体行为识别技术主要包括人体目标识别、人体跟踪与行为识别三个方面。其中，行为识别是基于前两者的更高级别的计算机视觉部分。研究出一种健壮的行为识别算法具有重要的理论意义与广泛的应用前景，其中包括智能视频监控、视频检索、人机交互等领域，因此行为识别领域受到广泛学者的关注。而研究的难点主要体现在运动背景复杂、行为多变、数据量大、实时性要求高等方面。
　　行为识别流程包括了人体的检测与跟踪、特征提取和行为识别三个重要环节。基于时空关键点的行为识别技术是近年来研究行为识别领域的主要研究思路，它的优点在于不依赖于底层的人体检测与跟踪算法，而重点依赖于特征提取与行为识别两个方面。本文沿用了基于时空兴趣点的行为识别方法。在特征提取方面，首先检测出三维视频样本中的时空兴趣点，通过引入现有的背景差分等前景提取方法获得兴趣区域，其次对兴趣区域与最小兴趣点区域进行融合获得最终兴趣区域，再次针对最终兴趣区域进行特征的提取，例如梯度直方图、光流直方图、小波能量特征等，最后采用累加直方图对图像序列进行多特征融合，生成视频特征向量。在行为识别方面，本文采用了直接分类法，其中包括KNN与AdaBoost两种分类方法。KNN算法简单，但识别率稍差；AdaBoost算法识别率高，但需要经过弱分类器的训练等过程，较为复杂。
　　与前人的工作相比，本文的贡献主要体现在以下几个方面：
　　1.提出了一种运动检测的时空兴趣网格（STIG）特征表示方法。它基于 ROI与 STIP，是一种联合全局特征与局部特征的一种特征描述方法，能够有效地保存各兴趣点之间的空间联系。其中ROI是全局的运动前景区域与局部最小STIP区域的融合，它的获取采用双向的研究思路。同时该ROI也为PHOG、PHOF与PHOW的特征提取提供了基础。
　　2.针对行为图像序列的时空特征，提出了融合PHOG、PHOF和PHOW特征对行为进行描述的方法。其中PHOG是一种形状特征表示方法。与PHOG类似，PHOF能够较好地描述运动特征。PHOW是本文引入的一种新的特征表示方法，它能够得到能量场在各个领域的分布，用于对自然背景的特征表述能力较强，与PHOG形成互补。因此本文提出了联合PHOG、PHOF和PHOW的特征描述方法。
　　3.采用了累加直方图对多特征进行融合的方法。空间信息保持在联合特征中，同时累加直方图又保存了时间信息。
　　实验中，本文采用了KTH和Weizmann两个基准数据集，并采用了具有挑战性的自然背景的UCF数据集，分类算法采用KNN和AdaBoost分类算法，而后用实验数据对提出的新的行为描述方法进行了各种指标的讨论，验证了本文提出的算法的合理性与高效性。

与本文相关的学术论文