论文部分内容阅读
基于视觉的信息获取是现代信息获取的重要途径之一。视频序列中的行为识别已经成为人工智能、计算机视觉及多媒体应用中的一个重要研究方向。其包括剪切视频中的行为识别和未剪切视频中的行为识别两类任务。识别剪切视频中的行为是在一段剪切好的视频中确定包含某类行为,属于分类问题,而识别未剪切视频中的行为除了需要确定视频中是否包含某类行为之外还需要确定其起始时间,属于检测问题。目前,视频中的行为识别已经成为视频检索,智能监控,人机交互,机器人等领域的一项重要技术。虽然目前国内外研究人员在视频行为识别领域已经取得了一定成果,但依旧面临环境干扰与遮挡,视角多样性,行为多样性,时空语义多样性等困难,仍然是一个极具挑战性的研究课题。卷积神经网络在图像域的成功,也促使卷积神经网络结构及其图像域的方法拓展到视频域,推动了包括行为识别在内的视频域任务的发展。近年来基于卷积神经网络的行为识别方法在行为识别的研究中占据了主导地位,并取得了巨大成功。本文的研究围绕目前基于卷积神经网络的行为识别算法存在的问题,结合图像处理,计算机视觉,机器学习和深度学习等算法进行深入研究。具体研究内容包括:从行为的不同时间尺度描述出发研究基于多时间尺度深度特征的剪切视频中的行为识别,从行为特征的时间演进出发研究基于原子特征时间建模的剪切视频中的行为识别,从不同粒度行为分类器的特点出发研究从细粒度到粗粒度的未剪切视频行为识别。主要贡献如下:(1)提出使用多时间尺度的深度特征来描述行为,完成剪切视频中的行为识别。目前基于卷积神经网络的行为识别方法只提取单一时间尺度上的深度特征,然而一个行为包含不同时间尺度的信息,从多个时间尺度去描述并识别行为可提高行为识别的准确率。因此本文将3D卷积神经网络Res3D衍生出新的版本,用于提取不同时间尺度下的深度信息,在每一个时间尺度上,将在RGB域学习到的知识迁移至光流域以使3D卷积神经网络同时从光流域获取信息。通过判别相关分析融合各时间尺度上提取到的深度信息以产生紧致的视频行为表达。相对于单时间尺度方法,本文提出的多时间尺度方法获得的行为表达维度更低,判别力更强,获得了更好的识别准确率。(2)提出使用行为的原子特征进行时间建模来识别剪切视频的行为。行为可以看作是时空信息在时间上的有序演进。在上述的多时间尺度方法中,行为的表达是基于等权重时空特征的无序建模的。本文使用互信息最大化方法,无监督地从每一个时间尺度下的深度特征中挖掘行为的原子特征,并使用长短时记忆网络对原子特征进行时间建模,来识别视频中的行为。实验结果表明相对于无序建模,本文提出的基于多时间尺度的原子特征时间建模对于剪切视频中行为识别展现出了较高的识别准确率。(3)提出从细粒度到粗粒度来识别未剪切视频中的行为。细粒度分类器易于定位行为的精确边界,而粗粒度分类器易于建模视频帧或视频分割之间的关系。本文在‘时域推荐+分类’的检测框架下,充分利用不同粒度分类器的特点,在时域推荐和分类两个阶段均设计视频分割级(细粒度)分类器和视频窗口级(粗粒度)分类器来实现从视频分割到视频窗口的未剪切视频中行为识别。这也符合人们从细粒度到粗粒度去观察视频的习惯:先从几帧观察行为的存在,再到一段视频确认行为的发生及类别。实验结果表明本文提出的从细粒度到粗粒度的行为识别具有较高的识别精度,且对不同类别的行为具有相对平衡的识别精度。