论文部分内容阅读
随着视频获取技术和互联网的飞速发展,视频迅速成为人们日常生活中信息来源的重要载体。视频数据量正处在指数级的增长状态,巨量的视频在丰富日常生活的同时,也带来了诸多难题,比如视频在检索和人体行为分类等方面都存在不小的难度。视频的人体行为识别已经成为一个研究热点,本文针对该课题进行研究,首先从视频数据中提取出能有效表达人体行为的特征,然后充分融合视频的长短时间信息,最后搭建起卷积神经网络,实现视频中的人体行为识别。论文的主要工作如下: ① 针对视频相对于图像来说多出时间维度这一特点,采用视频长短时间信息融合的方法提取视频的有效特征。通常卷积神经网络是处理单帧图像,面对含有时间信息的视频,本文先利用光流算法得到包含视频短时信息的光流特征。为了短时时间信息更加鲁棒,将多帧光流特征叠加作为卷积神经网络的输入;为了得到视频的长时时间信息,将视频均分多段并把每段的光流特征输入网络,把网络输出结果再做融合。最后实验表明利用视频长短时间信息能提高行为识别的准确率。 ② 针对视频片段静止时光流算法无法提取到有效特征等问题,提出采用鲁棒主成分分析算法提取视频稀疏、低秩特征然后结合神经网络进行行为识别。将视频数据看成一个整体,由稀疏成分和低秩成分组成,低秩成分表征视频的背景,稀疏成分能有力描述视频中人体行为。该算法能够从复杂的视频中分离出低秩背景特征和稀疏前景特征,这两种特征都是由像素级别组成,能有效表征人体行为特征,并且有着很好地鲁棒性。 ③ 近几年深度学习飞速发展,涌现了一大批优秀的网络,比如AlexNet、VGG、Inception-bn、ResNet 等。在实验过程中,发现训练不同的网络得到不同的行为识别准确率,在这几类网络中残差网络具有最好的特征提取能力。针对采用何种卷积神经网络搭建模型的问题,本文搭建了稀疏流和低秩流的双流网络,稀疏特征和低秩特征经过残差网络之后经过融合再送入分类器,最后实验分析验证了残差双流网络提高识别的准确率。