论文部分内容阅读
针对视频中部分行为时间跨度长,可能由于行为模糊或视频散焦导致信息受损的问题,提出一种具有残差连接的多级局部融合网络,以提高视频人体行为识别的准确率。通过传统的双流卷积神经网络分别提取视频的表观运动特征和长时运动特征。通过局部融合模块捕获相邻帧的信息来增强每帧特征信息。局部融合以多级方式执行,在时间维度上对不同的邻域进行特征融合。融合模块采用残差连接,能进行有效的梯度传播,实现端到端的训练。在人体行为KTH数据集上进行了测试,识别准确率高达98.9%。