论文部分内容阅读
基于视频的人体动作识别是计算机视觉领域的一个热点问题,在智能监控、人机交互以及视频检索等领域具有广泛的应用前景和潜在的经济价值。动作识别的主要任务是通过计算机对传感器采集的原始图像或图像序列数据进行处理和分析,学习并理解其中人的动作和行为,建立底层视觉特征与动作行为类别等高层语义信息之间的对应关系。动作识别中主要解决的问题有两个:动作表示和动作分类。动作表示即从视频中提取有效的特征对动作进行描述,而动作分类则是根据提取的特征设计相应的分类模型。根据对动作的表示的不同,我们将目前的动作识别方法分为三类:基于人体模型的方法,基于全局特征的方法,基于局部特征的方法。其中,基于局部特征的方法是近年来比较流行的方法,在多个人体动作数据集上都取得了很好的结果。视频特征提取与描述是人体动作识别中至关重要的一步,对动作识别的结果有着重要的影响。本文首先对现存的轨迹提取方法进行了详细的分析,指出了它们的创新与不足之处,然后提出了一种新的轨迹提取方法,它能够准确的反映出人的运动信息。为了描述一条给定轨迹的形状和运动信息,我们在它的局部邻域内抽取三种描述符:梯度方向直方图,光流直方图,运动边界直方图。很多情况下,识别人体动作不仅与人体的运动轨迹有关,也与人所处的场景有关,场景信息能够暗示在这种情况下可能会发生的动作类型。基于此,本文使用了一种场景特征Gist来对场景结构进行建模。我们引入了一种词袋模型的思想,将视频表示为一系列视觉单词的集合,由于词袋模型通常忽略了局部特征之间的时空关系,我们将视频序列划分为时空网格以嵌入结构信息。最后,我们还使用了多核学习的思想,将两类特征进行有效的融合,以达到最佳的分类效果。目前的动作识别算法在简单受限的场景下得到了较高的识别率,然而,真实场景(比如电视广播、电影以及监控视频等)中的动作识别仍旧是一个非常有挑战性的问题。为了验证本文算法的有效性和可行性,我们在四个具有挑战性的人体动作数据集上对本文的算法进行了测试和评价。实验结果表明:本文提出的方法能够很好的适应动作实施者的穿着和动作差异等因素的影响,取得了良好的识别效果。