论文部分内容阅读
视频中人物行为识别的任务是利用计算机自动处理和分析输入的视频片段,根据视频中人物的姿态、动作的变化、场景等信息判别人物行为的类别。视频行为识别技术可用于智能监控系统、视频标记与检索、智能看护、人机交互等领域,具有广泛的应用前景。视频行为识别研究的科学价值在于发现影响机器识别人类行为的因素及相互关系,找到适合表达视频中人物行为的表示模型,探索求解优化模型最优解的算法。此研究方向日益成为计算机视觉领域的研究热点。受相机参数、场景复杂、个体差异等因素的影响,视频行为识别依然面临许多挑战。基于深度特征和手工特征的表示是目前行为识别最常用的表示方式,基于两种表示的行为识别方法均存一些不足:由于行为节奏存在差异、人物在视频帧中的位置存在随机性,现有等间距帧采样和随机图像块采样不能确保始终聚焦于感兴趣区域,存在无效样本过多的问题;面向局特征的编码过程中,现有的无监督字典学习未充分利用视频标记信息,字典构建较为盲目,存在字典判别力较弱的问题;光流和图像信息是行为识别中的主要信息来源,现有多特征拼接或线性叠加的方式未充分利用特征的空间同步信息,存在特征表示能力不足的问题;针对这些问题,本文从视频采样、特征编码和特征融合三方面展开研究,主要研究内容及成果如下:(1)基于注意力机制与强化学习的视频采样深度卷积网络在处理视频时,通常采用固定间距对连续帧进行采样,再对帧中的图像块进行随机采样。这种采样的方式不能确保采样到与行为密切关联的视频帧和图像块。针对这一问题,本文提出了指导关键帧和关键图像块采样的注意力模型,该注意力模型根据已经观察到的视频信息,通过神经网络自主学习来估计下一个关键帧相对于当前帧的位置和下一个受关注的图像块的相对位置;最后应用强化学习算法实现了模型的求解。实验表明,本文提出的注意力模型能较好地指导视频采样,提升了行为识别的性能,优于传统的采样方式。(2)基于多示例学习与判别字典的特征编码基于局部特征表示的行为识别方法需要对局部特征进行字典编码、池化才能得到视频的全局表达。现有局部特征的字典学习采用无监督学法,字典的构建具有盲目性,导致字典的判别能力较弱。针对这一问题,本文提出了面向局部特征的判别字典学习和编码算法。该算法假定同类别视频中的每个局部特征集合中存在相似的特征,而这些相似特征在其他类别的局部特征集合中不存在;基于这一多示例假设,我们将学习到的分类器作为字典的码字;为进一步提升字典质量,在基于多示例的判别字典学习算法中还引入交叉验证策略和限制每个集合中正示例数量的策略。实验表明,利用本文提出的算法得到的字典进行编码,行为识别的性能优于其他传统的算法,并能与其他算法得到的编码融合,实现互补。(3)基于卷积特征图与门通机制的特征融合光流特征表达人物的运动信息,图像特征表达人物的外观信息,两种特征的组合是行为识别中最常用的方式。光流分布主要集中的人体的运动部位,这些区域的外观信息是行为识别的关键。现有的融合方式要么忽略了光流与图像之间的空间同步信息,要么只是简单的进行线性叠加,没有充分利用光流信息来指导图像特征的提取;随着感知区域的扩大,高层卷积特征会忽略低层中的细节信息,而细节信息对视觉差异较小的类别辨识非常重要。针对这一问题,本文提出的基于光流场特征的门通模型,利用光流卷积特征来生成控制门,实现对图像信息的筛选,从而获取与运动密切关联的细节特征,并将这些特征与初始的光流特征和图像特征通过循环网络进行融合。实验表明,利用门通机制获取的特征与原有光流和图像特征融合后能有效提升系统的性能。本文通过借鉴人类视觉感知和认知的机理来解决视频中人物行为的分类问题,在视频分析和理解领域的基础理论和关键技术方面进行了探索性研究,并取得了一些创新性成果。