论文部分内容阅读
人体行为识别的主要任务是利用计算机视觉对含有行人的目标视频进行智能分析,从而区分不同的人体动作和进行后续的智能处理。行为识别所需图像类型包括RGB图像和深度图像两种。RGB图像缺少人体三维空间信息,对光照和背景极其敏感,应用效果及应用范围受到很大限制。深度图像的像素值只与物体的空间位置有关,受环境因素的影响较小,可以更好地进行人体行为识别。本文针对基于深度图像的人体行为识别方法中出现的一些问题进行研究,论文的主要研究内容包括:1.针对深度运动图(Depth Motion Map,DMM)表示动作细节信息不稳定、时间维度信息丢失以及同类动作速度差异较大等问题,提出一种基于新投影策略和能量均匀化视频分割的人体行为识别方法。该方法不仅识别率较高,而且耗时短。针对DMM表现行为信息的不稳定问题,提出一种新的投影策略,将原深度图像本身的位置信息和数量统计信息同时反映在侧面投影和顶面投影中,提高识别率。为了解决在计算整个视频的DMM上出现的时间维度信息丢失问题,同时考虑到动作速度和幅度对识别的影响,本文基于能量均匀化构造三层时间金字塔并进行视频分割。最后,采用快速的局部二值模式(Local Binary Pattern,LBP)描述多个子视频序列的DMM纹理细节,并结合支持向量机(Support Vector Machine,SVM)完成行为识别。该方法在MSRAction3D数据库和MSRGesture3D数据库上的识别率分别为94.55%和95.67%。2.针对长视频序列DMM细节信息丢失仍然严重的问题以及寻找更合适的特征表示,提出一种结合多尺度有向DMM和Log-Gabor的人体行为识别方法。对于长视频序列DMM细节信息丢失严重的问题,采用新策略构建可以表征更多细节信息的三层时间金字塔,得到多尺度DMM。同时,为了使DMM表现动作方向,提出有向DMM,使用正向DMM和反向DMM来分别反映前向和后向运动信息。最后,采用纹理表征性能更好、更符合人眼视觉特性的Log-Gabor来描述DMM纹理细节,并结合协同表示分类器(Collaborative Representation Classifier,CRC)完成行为识别。与方法1相比,该方法在MSRAction3D数据库和MSRGesture3D数据库上的识别率分别提高1.50%和1.25%。3.针对上面两种传统方法的特征选择难、过分依赖应用场景的问题,基于深度学习理论,提出一种基于改进DMM和卷积神经网络的人体行为识别方法。首先,为克服数据集样本少造成网络模型易过拟合的问题,使用数据增广技术模拟在一定角度范围内的相机视角变化,另外还通过改变DMM差分图像的时间间隔来模拟同一动作的不同速度。其次,将整个视频信息压缩到一帧DMM图像时,在得到DMM的系列差分图像中引入权值变量来保留视频的时间维度信息。然后,将三个投影平面的改进DMM进行伪彩色处理,并输入到三个独立的VGG-16网络进行参数微调。最后,将提取的VGG-16网络高层次特征进行融合并输入到SVM进行行为识别。与方法1相比,该方法在MSRAction3D数据库和MSRGesture3D数据库上的识别率分别提高了2.30%和1.83%。