论文部分内容阅读
近几年,受益于智慧城市、智能安防等领域的高速发展,无论是在学术研究领域还是在工业领域,使用深度学习方法的人体行为识别技术已经成为众多研究人员炙手可热的研究方向。虽然这些针对视频流的深度学习方法取得不错的识别率,但都存在网络设计复杂、训练难度大,需要高性能的硬件支持。因此,本文通过将人体行为识别分为两步,首先利用搭建的人体目标检测模型提取帧级骨架图像集,然后利用人体行为分类模型进行识别。通过“两步走”的方式将视频流转化成帧级骨架图像集可以降低对高性能硬件的依赖,再利用帧级骨架图像集进行行为分类,降低网络结构的复杂度和训练难度。总之,本文方法可在降低训练难度并减少对高性能硬件依赖的同时实现了对7种一般性人体行为的正确识别,并有良好的鲁棒性和泛化能力。首先,为了克服或者改善复杂背景对人体行为识别的干扰,将人体行为图像集转化为人体骨架图像集,借鉴目标检测算法,采用了基于双流深度卷积神经网络搭建人体目标检测模型,其中为了得到准确的人体骨架图而加入了人体躯干关联域方法。通过网络的多阶段、逐步精细化的预测人体关键点的位置以及人体躯干的正确连接,提高输出人体骨架图的准确度,并实现输出人体行为的骨架图,获取帧级骨架图像集。其次,自建人体行为骨架数据集。通过分析7种人体行为在帧级骨架图像集中的不同特点,设计了相应的采集约束条件,从而保证采集的数据集整体质量和效率,然后结合了人体目标检测模型搭建数据集采集软件,利用多个摄像头在不同场景下实现数据集的高效收集,最终形成了由帧级骨架图像集表示的人体行为骨架数据集。然后,针对帧级骨架图像集搭建了人体行为分类网络,其中使用了聚合池化模块和水平金字塔池化模块。聚合池化模块将输入的多幅骨架图的特征聚合成一个特征向量,它保留了特征的全局和局部特性;水平金字塔模块通过不同尺度获取输入特征的全局空间信息和局部空间信息,使得特征更具鉴别性,提高了模型对不同行为类别的辨识度。最后,实验结果表明了人体目标检测模型符合后续实验要求,既可以提取准的骨架图也能保证输出帧级骨架图像集。通过自建的骨架数据集对人体行为分类模型进行测试,平均识别准确率达到了92.6%。此外,使用了5种角度(0度、45度、90度和180度)的7种行为对模型进行测试,均取得良好的识别准确率。综上,本文的方法能够正确识别出一般性的7种人体行为,并具有良好的鲁棒性和泛化能力,进一步表明了本文方法的有效性与可行性。