论文部分内容阅读
人体动作识别(Human action recognition)是机器视觉和人工智能领域一个新的研究课题,其目的是从视频中检测并识别目标的动作,使得计算机系统能理解人的动作,对场景进行语义描述。基于视频的人体动作识别,主要包含两个部分:人体运动区域检测和动作识别。人体运动区域检测就是采用运动目标检测方法,从视频中检测出人体运动的区域。动作识别指的是在人体运动区域进行特征提取,对特征进行描述,并采用合适的分类方法进行训练和分类。这两个方面都充满挑战:在人体运动区域检测方面,视频中存在背景复杂、光照变化、目标运动速度变化等情况,给人体运动区域检测带来很大的干扰;在动作识别方面,动作是由三维信息构成,常规的图像处理方法不能很好的处理,如何有效地进行特征的提取与描述以及分类器的设计都面临着困难。本文的工作主要包括以下几个方面:1.本文提出了一种新的视频冗余帧去除方法,减少了计算量,解决了视频冗余信息对动作分析造成干扰的问题。将VIBE背景建模和帧差法进行有效地结合,构造了一种新的人体运动区域检测方法,可以快速准确地检测出人体运动区域。2.在特征提取与描述方面,本文构造了一种有效的基于人体运动区域的3DHOG特征,并引入基于三维频域Gabor滤波的全局描述子特征和基于时空兴趣点的局部描述子特征。将这三种特征进行降维、词袋模型描述等处理,转化为描述能力更好的特征,联合进行人体动作识别。3.在多类别分类器设计部分,对于三种特征,设计了一个多特征融合多类别分类器,弥补了单个特征难以全面描述动作的缺点,提高了识别准确性。通过在国际基准动作识别数据库Weizmann和KTH上进行实验,对识别率和运行时间进行测试,验证了算法的性能。实验结果表明:多特征融合优于单个特征,三种特征的融合显著地提高了识别精度。