论文部分内容阅读
随着计算机技术的迅速发展,图像和视频数据的海量增长推动着计算机视觉研究和应用的不断发展,同时也促进了模式识别,人工智能和机器学习等相关领域的发展。人体行为识别作为计算机视觉领域备受关注的研究方向,被广泛应用于智能视频监控、病人监护系统、人机交互、虚拟现实、智能家居、智能安防和运动员辅助训练等,具有广泛的应用价值和前景。尽管当前行为识别的研究取得了一定进展,但由于人体行为识别的复杂性,如背景杂乱、摄像机快速移动,以及人体外貌、姿势和尺度等变化,导致人体行为识别面临更大的困难和挑战。传统基于兴趣点的行为识别方法通过提取底层特征(如HOF, HOG和3D-SIFT等描述子)获取视频的局部信息,并构建基于语义的bag-of-words模型用于生成行为的特征向量。这种方法的优点是不需要对视频进行预处理提取运动对象,进而不易受图像预处理结果的影响,且对噪声或干扰等因素不敏感,但其缺点是计算复杂度高,特别在训练过程中需要耗费大量时间构造字典模型。本文关注兴趣点的轮廓信信息和运动信息,提出一种基于运动模式的人体行为识别方法。本文的主要工作包括:1)采用现有的兴趣点检测方法(Dollars角点检测方法)提取视频中的时空兴趣点,采用本文方法提取运动模式(movement pattern, MP),该运动模式包含顶层的全局运动模式(global pattern, GMP)和底层的局部运动模式(local movement pattern, LMP); 2)在基于GMP的方法中,通过提取视频立方体中的时空兴趣区域(region of interest, ROI),采用kalman滤波对ROI进行预测,提取全局运动模式,并进行动态时间规整(dynamic time warping, DTW)在模式匹配阶段使用字交叉参考模板(cross-words reference templates, CWRTs)方法对训练模式进行规整生成参考模式并使用距离度量对其进行识别;3)在基于LMP的方法中,ROI内的兴趣点轨迹与加权平均运动速度用于表示ROI的局部运动模式,通过自适应层次聚类算法产生局部参考运动模式,并采用模式匹配方法对其分类和识别。在训练过程中,首先构建一个具有两层结构的分类器模型:顶层包含多个非混淆行为分类器和混淆行为分类器,而底层则包含基于顶层每个混淆行为分类器构建的多个非混淆行为分类器。非混淆行为分类器定义:只包含一类行为的分类器定义为非混淆行为分类器。混淆行为分类器定义:分类器包含多类易混淆,相似度高的行为,这样的分类器定义为混淆行为分类器。对于任何一个行为,首先采用顶层的GMP描述方法及其识别方法对其进行识别,若识别结果为非混淆类,则结束识别过程;若识别结果为混淆类,则继续采用底层的LMP描述方法及识别方法对其进行二次识别,从而将其识别为底层的非混淆类。将本文的方法在标准视频库Weizmann库和UCF库中进行验证和测试,并在multiple cameras fall视频库中对跌倒行为进行了识别,其识别率分别为93.0%、88.4%和93.5%。实验表明本文的方法在保证识别率的前提下,较传统基于多种底层特征(如HOF, HOG和3D-SIFT描述子)描述的bag-of-words方法计算量更小,耗时更少,具有更好的实时性。论文最后对算法参数进行分析,讨论了三种不同参数对实验结果的影响。