论文部分内容阅读
视频内容的认识是计算机视觉中的重要问题,相关研究可以用于智能视频监控、人机交互、视频检索等多个领域。视频的特征表达对于视频内容的识别至关重要。由于视频数据量大且内容复杂,同时会受到视角、背景、时间等因素影响,很难提取出良好的视频特征。近年来相关研究取得了一定进展,但仍存在诸多困难,无法良好的应用到实际场景中。传统方法以使用人工设计的局部特征表达为主,对视频中时空信息的描述能力不足。同时,传统视频内容识别中特征提取方法依赖复杂的处理运算,其速度难以达到实时性能。本文针对视频内容识别中的时空特征提取,从识别准确率和识别速度两方面都进行了研究,本文主要工作如下。1.慢特征分析(SFA:slow feature analysis)从快速变化的信号中提取缓慢变化的特征,这一方法已被证实可以模拟灵长类动物的初级视皮层(V1)的复杂细胞。初级视皮层为腹侧和背侧通路提供信息,分别用于外观和运动信息的处理。然而,SFA在局部特征提取中只被用于提取缓慢变化的信息,这些信息主要表征静态的外观信息,不包含运动信息。为了更好的利用时序信息,本文将SFA扩展为时间方差分析(TVA:temporal variance analysis)。TVA学习一个线性映射函数,将原始的时序信息映射为在时序上具有不同变化量的特征分量。受到V1区域启发,我们通过TVA学习局部感受野(local receptive field),并通过卷积和池化操作进行局部特征提取。本文对基于TVA的特征提取方法在四个行为识别数据库上做了测试,实验结果表明,基于TVA方法提取的慢特征与快特征都能有效的进行特征表达,且能够获得比传统基于梯度方向直方图特征更好的结果。2.动态纹理以不同形态广泛存在,如火焰、烟雾、车流等,由于动态纹理视频在时序上复杂的变化使得动态纹理识别成为一个具有挑战性的问题。本文提出一种基于慢特征分析的动态纹理识别方法。慢特征分析可以从复杂的动态纹理中学到具有不变性的特征。然而,复杂的时间变化要求高层级的语义信息来进行特征表达以达成时间不变性,这难以通过慢特征分析方法直接从高维视频中学习到。我们提出了基于流形约束的慢特征分析(MR-SFA:manifold regularized SFA)学习一个低语义级别的局部特征,以描述复杂的动态纹理。MR-SFA约束具有相似初始状态的特征在时间上也具有相似的变化,此方法可以学到一个具有部分可预测性的慢变化特征,以应对动态纹理的复杂性。本文在动态纹理识别和动态场景识别数据库上进行了实验,实验结果验证了MR-SFA的有效性。3.传统的视频特征提取方法对于实时性或大规模应用而言时间效率太低。通过将特征提取中所需的光流信息替换为视频压缩域中的运动向量(MV:motion vector),时间效率可以在一定程度上得到缓解。此外,压缩域中的其他信息也可以被用于特征提取。在传统压缩视频中,DCT(discrete cosine transform)系数编码了视频中连续帧之间的残差信息,这部分信息是运动向量所指向的块(block)无法捕捉的信息。我们提出了一组名为残差边缘直方图的特征,利用DCT系数的不同部分进行视频的特征提取。另一方面,在深度图视频中,我们利用了深度图视频的压缩域信息,包括DWT(discrete wavelet transform)系数和间隔点(breakpoints)信息。DWT系数描述了深度图中的深度信息,而间隔点保证了深度图视频具有锐利清晰的边缘,本文利用这两种压缩域信息提取了一系列用于深度图视频的特征。本文在行为识别数据库上对上述特征提取方法进行了验证,实验结果表明,相比传统方法本文方法在保证良好识别准确率的基础上具有明显的速度优势。综上,一方面,本文基于对视频时空信息的分析,提出了新的时空局部特征提取方法,以获得更优的识别准确率;另一方面,本文从压缩域信息出发,直接从被压缩的视频信息中进行时空特征的提取,在保证良好识别准确率的情况下大幅提高了识别速度。