论文部分内容阅读
视频事件识别是指从视频中识别出事件的时空视觉模式,在智能监控、医疗看护、机器人视觉等诸多领域有着重要的应用前景,是计算机视觉领域的一个热点研究课题。视频数据具有数据量大、时序复杂、分辨率低、运动对象之间相互遮挡、同类事件之间差异大等特点,使得视频事件识别是一项非常有挑战性的任务。近年来,深度学习技术有力推动了计算机视觉领域的发展,基于深度学习的特征表达在视频事件识别领域取得了令人瞩目的性能。本文从视频中丰富的空间信息和时间轴上的运动信息入手,研究深度网络时空一致性建模方法,解决视频事件识别中的复杂背景下时空特征不一致、全局特征学习能力不够、对象遮挡导致网络不能捕获事件细节等问题,主要工作与贡献如下:(1)针对视频事件识别中的复杂背景下视频时空特征不一致的问题,研究局部和全局时空特征表达,提出了一种基于卷积网络时空特征图一致性的事件识别方法。在局部时空特征一致性方面,利用卷积层特征在网络传递过程中演进变化的特点,设计时空网络对等层对等特征图上的最大区域生长池化(Maximal Region Growing Pooling,MRGP)融合方法,得到时空融合通道。在全局时空特征表达方面,利用全局手工特征引导深度特征,采用密集轨迹池化时空融合通道、空间网络通道和时间网络通道,并构建三通道架构(Triple-channel)的融合方法。在VIRAT 1.0和VIRAT 2.0两个监控视频数据集上的实验表明,本文方法对于场景复杂、分辨率不高的监控视频事件有很好的识别性能。(2)为解决视频事件识别中复杂场景和时序下网络对视频全局特征学习能力不足问题,研究残差模块堆叠和优化函数构建,提出了一种基于深度残差递归网络时空一致性的事件识别方法。在残差模块堆叠研究中,首先设计了时空数据连接层,将时空特征数据经LSTM同步解析后形成时空数据连接单元,从而构成时空一致输入。然后将多个数据联接层再加恒等映射组成残差模块,最后堆叠多个残差模块以获得深度时空全局特征描述子——深度残差双单向DLSTM(Deep Residual Dual Unidirectional Double-LSTM,DRDU-DLSTM),提升视频事件全局特征学习能力。为了进一步优化识别结果,设计了基于双中心Loss的2C-softmax优化函数,以最大化类间距离的同时最小化类内间隔距离。在监控视频数据集VIRAT 1.0和VIRAT 2.0上的实验表明,本文提出的事件识别方法有很好的性能表现和稳定性。(3)为解决视频事件识别时场景不复杂但对象遮挡严重导致网络不能捕获事件细节的问题,研究帧内注意力机制和帧间长短时依赖关系,提出了一种基于层次化注意力嵌入的时空网络事件识别方法。对于帧内注意力提取,设计了层次化注意力模型,该模型包含对象注意力、全局注意力和注意力增强特征三个层级。由视觉语义引导生成第一层注意力——对象注意力,以捕获事件区域的对象;对象注意力特征和全景语义共同引导生成第二层注意力——全局注意力,以捕获全局信息和更多的遮挡对象细节;第三层实现注意力增强特征融合,将两种在全局和局部有互补关系的注意力增强特征联接后输入到递归网络。同时设计了两种捕获事件信息的策略:一种是帧间长短时依赖关系获取,另一种是运动信息长短时特征描述,两种策略形成时空架构。本文在CCV、VIRAT 1.0和VIRAT 2.0三个对象遮挡严重的视频事件识别数据集上对提出的方法进行了性能评价和分析。实验结果表明,利用带有层次化注意力的时空深度网络架构能够取得比现有视频事件识别方法更优秀的识别准确率。