论文部分内容阅读
为了进一步保障公共场所内的安全与稳定,基于视频监控的人体行为识别技术得到了全社会的广泛关注。已有的基于深度学习的人体行为识别方法计算复杂度高、模型泛化性差且很难准确识别。本文对现有模型的优缺点进行分析,从模型的实用性和识别性能角度出发,以原始的双流卷积神经网络为基础并提出了两种改进模型。针对卷积神经网络(CNN)只能提取视频中静态特征和局部运动特征的问题,本文提出在空间流网络中融入长短时记忆网络(LSTM),在时间流网络中用三维卷积(C3D)网络代替原二维卷积网络,形成改进的双流CNN-LSTM和C3D的网络结构,进一步加强视频中时序信息的学习,再使用加权融合的方式对两路网络Softmax层输出的决策分数进行加权运算,获得行为分类结果,但准确率还不够高。针对双流网络模型仅仅在决策分数阶段进行融合导致行为识别准确率较低的问题,本文提出在特征层面对空间流网络和时间流网络进行融合,此融合方式必须保证两路网络结构相同,鉴于三维卷积的优越性,在上述改进的基础上继续将空间流网络替换为C3D网络,形成改进的双流C3D网络结构,融合方式包括Conv5b融合、Fc7融合和hybrid融合。该网络在行为识别任务上达到了较好的识别效果。针对行为识别大多使用公共数据集,很少研究特定场景下异常行为识别的问题,本文除了使用公共UCF-101数据集,还建立了基建现场异常行为检测数据集,用迁移学习的方法对走路、跑步、工作、跨越警戒线、摔倒、打架、向下抛物七种行为进行识别。实验结果表明,改进的双流CNN-LSTM和C3D的网络结构在UCF-101数据集中达到了 90.24%的准确率,在基建现场异常行为检测数据集中达到了 95.97%的准确率。改进的双流C3D网络结构在以上两种数据集中的准确率分别达到了 92.47%和97.51%。改进的网络模型不仅对UCF-101数据集中101类行为的识别效果较好,也在特定基建现场数据集中7类行为的识别时展现出优越性,本文将理论结合实际应用场景,使得行为识别的研究更有意义。