论文部分内容阅读
视频序列中的人体行为识别作为机器学习领域的热点和难点之一,已经引起了认知科学、生物学以及计算机科学等各个学科的广泛关注,同时,已成功应用于视频监控、零售分析和医疗诊断等各个行业。目前,简单场景和摄像机固定条件下的行为识别已经取得了相当好的性能。然而,对于从电影、电视和其他媒体平台上收集得到的真实视频,识别准确率还远远没有达到期望的要求。这是因为真实场景下的行为视频中通常存在着巨大的类内差异性和类间相似性,以及大量复杂背景。因此,如何设计有效的特征表示对于视频中的行为识别是至关重要的。本文在充分分析和学习现有方法的基础上,构建了一种基于运动学描述子和深度学习的行为识别新框架。(1)通过对视频光流场的动力学特性进行探索,构建了一组更具判别性的运动学场,包括:光流时空梯度场、散度场、旋度场、切变场、对称场以及非对称场。在此基础上,通过探索特征与其邻域信息之间的相关性,构建了一个新的运动学自相关描述子。该描述子能够很好地获取光流场的时空几何特性,具有较强的运动细节及运动空间描述能力。同时,通过探索底层运动学特征之间的关系,构建了一个新的运动学协方差描述子。该描述子具有很好的紧凑性和判别性,在实现特征降维的同时,显著增强了特征表示对于运动的表达能力。(2)通过引入一种多通道软注意力机制,构建了一种新的融合注意力机制的深度残差网络模型。该网络结构通过自动将较大的权重赋予对分类起决定性作用的局部图像区域,突出了视频帧中的判别特征,同时缓解了无关信息以及噪声产生的负面影响。在此基础上,针对视频级标签和帧级特征之间可能存在的不匹配问题,本文对视频进行分段和采样,并进一步将局部帧级特征进行整合以获取全局视频级特征,构建了一个新的深度静态描述子。该描述子能够准确地定位并获取视频中运动主体以及运动场景的表观信息。(3)通过联合两个运动学描述子以及深度静态描述子,本文构建了一个行为识别新框架。该新框架囊括了人工特征和深度特征的共同优势,能够同时准确地获取视频序列中的动态特性以及静态信息,因此实现了对视频数据全面且系统的建模。本文在UCF-Sports数据库和YouTube数据库上进行相关实验仿真,实验结果充分证明了本文行为识别新框架的有效性。