论文部分内容阅读
视频人体行为识别技术可满足网络视频检索与分析、智能视频监控分析、智能视频监护等应用领域对自动分析及智能化的需求,引起学术界的广泛关注。虽然目前国内外学者在行为识别领域已取得一定研究成果,但由于人体行为在动作速率、相机视角、运动场景等方面存在多样性,基于视频的人体行为识别仍是一个极具挑战性的研究课题。行为特征表达作为人体行为识别的关键一环,直接影响着行为识别性能。为此本文在相关基金项目支持下,围绕人体行为特征表达问题,面向自然场景行为视频开展行为识别相关算法研究。本文主要研究内容包括以下四个方面:(1)基于动作分解的视频帧采样。现有基于深度特征的行为识别算法中视频帧等量采样和顺序采样等两种方法忽视了人体行为中多个动作(或者状态)持续时间变化的差异性,不能鲁棒表征动作的时间尺度变化。针对这一问题,本文分析了行为动作与视频帧相似性之间的关系,利用相邻帧间海明距离提出了基于动作分解的视频帧采样算法。实验表明,提出方法较等量采样和顺序采样方法在HMDB51数据集上的行为识别率有3.5%以上提升。(2)基于运动显著区性的图像块采样。目前基于深度特征的图像缩放采样、图像中心采样和中心四角采样等图像块采样方法没有围绕人体视频帧行为区域来裁剪图像块。针对这一问题,本文通过改进最新运动显著性检测算法,将之应用于图像块采样,提出了基于运动显著性的图像块采样算法。该算法根据行为显著运动区域来构建卷积网络所需的图像块,有效捕捉人体行为变化区域,提取辨识力极好的人体行为特征。实验表明,提出方法较传统图像块采样方法在行为识别性能提升超过2.7%。(3)基于多模态特征的行为识别。目前基于原始RGB图像、光流等模态数据的深度行为特征研究比较零散,新提出的运动边界和梯度边界两种模态数据的深度表征能力在人体行为识别中尚无文献研究。针对这些问题,本文引入运动边界和梯度边界提取行为深度特征,并对多种模态特征及其融合特征进行了行为识别性能比较。实验表明,运动边界和梯度边界深度特征有着较强的行为表征能力,多种模态特征在时序特征层融合的行为识别率优于卷积特征层融合。(4)基于实时全局运动补偿的行为识别。蕴含丰富行为运动变化信息的光流需要进行耗时的稠密触点检测与帧间位移计算。Zhang等[84]采用视频压缩域的运动矢量替代光流提出了 EMV-CNN算法实时获取人体行为特征,但该算法没有消除运动矢量中全局运动信息对人体行为信息的干扰。针对这一问题,本文根据全局运动矢量的对称性和差分性理论,提出了实时全局运动估计与补偿方法。实验表明,基于全局运动补偿的EMV-CNN特征在保证实时性的前提下显著提升了行为识别率。综上所述,本文针对视频帧采样和图像块采样的鲁棒性、多模态特征融合的互补性、深度特征提取的实时性等问题进行研究,提出了基于动作分解的视频帧采样算法、基于运动显著性的图像块采样算法,分析比较了多种模态特征及其融合特征的行为表征能力,并根据全局运动矢量的对称性和差分性理论,提出了实时全局运动估计与补偿方法。实验表明,以上研究成果显著提升了人体行为识别性能。