论文部分内容阅读
随着个人智能设备的普及和天网监控的大规模应用,视频数据的获取变得越来越便捷,对视频数据进行分析和处理的应用也变得越来越广泛,其中包括智能监控、人机交互、体育视频分析和视频检索等。视频行为识别是行为分析的核心任务和智能视频分析的基础,其任务就是从获得的视频数据中提取特征,进而对这些行为进行分类处理。近年来,伴随着全世界对公共安全的重视,如何对监控视频中的行为进行识别,成为计算机视觉领域中的研究热点。视频数据的获取和处理易受到诸多因素的干扰,如背景中自然环境的变化、各种行为之间的界定模糊、行为人衣着体貌的变化等,从而影响视频行为识别的可靠性和精确度。通过分析现有的视频行为识别框架可以发现,如果能够将应用场景限定在如室内监控等背景环境较为单一的情况下,则可以使用运动历史图像将问题简化。本文主要研究如何在非单一背景但复杂度较低的环境中使用深度网络对视频样本进行特征提取并结合高效的分类器进行分类。首先,本文针对视频行为识别的两个主要环节,即特征提取和特征分类,对现有主要技术手段的优点和不足进行了深入地分析。重现了在简单背景环境下基于运动历史图像和梯度直方图的视频特征提取方法,同时引入核非线性分类的方法。实验结果表明核非线性分类的方法比传统的k近邻(k-Nearest Neighbor,KNN)分类器拥有更高的识别率,同时在效率方面比经典的SVM算法更有优势。其次,在深入研究堆栈式稀疏自动编码机和卷积神经网络这两种典型深度学习算法的基础上,将它们分别应用于视频样本的运动历史图像的特征提取过程中,并进一步地通过使用迁移学习的策略应对深度网络训练时间长的缺陷,同时实现在小样本条件下利用更深层的网络提取特征。通过实验验证了深度学习方法比传统特征提取方法在识别率和鲁棒性方面更具优势;同时将核非线性分类方法与深度网络结合起来,在保证识别率的前提下提高了分类的效率。最后,通过研究一种非负稀疏编码算法,将增量学习方法应用到视频行为识别当中。这种增量型稀疏编码算法充分利用增量学习算法对特征进行持续学习的能力,从另一个角度应对深度学习算法训练时间过长的问题,通过实验验证了该算法与运动历史图的结合,能够成功地识别出简单背景下的行为。