论文部分内容阅读
人体行为识别作为计算机视觉的一个重要课题,一直以来受到了各界学者的关注,在智能监控、人机交互、视频检索和运动分析等领域有着非常广泛的应用。人体行为识别有很多的难点,例如:遮挡、类内变化、类间相似、尺度变化、光照变化和背景扰动等,仅仅根据RGB视频数据流很难处理。随着Kinect等设备的普及,深度数据和骨骼关节点数据越来越容易获得。因为骨骼关节点数据可以很好地构建出人体模型,越来越多的学者开始关注基于骨骼关节点的人体行为识别。本文对基于骨骼关节点的人体行为识别技术进行了研究,研究内容包括三个部分:动作识别、实时动作检测和实时动作分割。动作识别是在分割好的视频序列上识别出动作类别;实时动作检测是在未分割视频序列上实时地检测某种动作是否发生;实时动作分割是在未分割视频序列上实时分辨出动作的类别和该动作的开始帧与结束帧。以往学者们大多关注如何进行动作识别,而对实时动作检测和实时动作分割关注较少。随着Kinect等设备的普及和现实对此的需求,近几年实时动作检测和实时动作分割也开始受到部分学者的关注。本文工作如下:在动作识别上,根据泰勒中值定理和身体关节点坐标提出的运动姿态描述子(Moving Pose Descriptor)能够准确地描述人体动作。相似的,本文根据泰勒中值定理和身体关节角度,提出了运动角度描述子(Moving Angle Descriptor),该描述子包括角度、角速度和角加速度三部分。运动姿态描述子关注人体关节点坐标的变化,运动角度描述子关注人体关节角度的变化,二者各有优点。为了将运动姿态描述子和运动角度描述子的优点结合,本文在描述子级别上对它们进行了权重融合,权重融合后的描述子称为融合运动描述子(Fused Moving Descriptor),以该描述子构建词袋模型进行人体动作识别。在实时动作检测和实时动作分割任务中,ELS(Efficient Linear Search)算法效果非常好,但是该算法忽略了多个动作类别的最大子序列和大于等于自身阈值的情况,在这种情况下,ELS算法无法辨别动作类别。针对ELS算法的这个缺点,本文提出了两个改进方法,第一个是记录顺序法,该方法记录第一个大于等于自身阈值的动作类,并以此作为输出判断;第二个是计算阈值比法,该方法计算每个动作类的最大子序列和超出自身阈值部分占自身阈值的比例,选择超出自身阈值比例最多的动作类别作为输出判断。本文在MSR-Action3D数据集和MSRC-12数据集上进行实验,证明了本文提出的运动角度描述子能够有效地描述人体动作。融合运动描述子有效集成了运动姿态描述子和运动角度描述子的优点,比单独使用运动姿态描述子和运动角度描述子有更高的分类准确率。在实时动作检测和实时动作分割实验中,比较了ELS算法和两个改进方法的性能,得出计算阈值比法能够更好地处理多个动作类别的最大子序列和大于等于自身阈值的情况,本文称之为i ELS(improved Efficient Linear Search)算法。