论文部分内容阅读
人体行为识别是计算机视觉领域的研究热点之一,具有重要的理论价值和应用前景。随着深度学习技术的发展,基于多样本(监督)学习的行为识别方法取得突破性进展。然而这种方法需要大量的标注样本,且无法扩展到样本量极少甚至零样本情况下的识别任务,导致模型的泛化能力受限。零样本学习可以将已知类别数据的知识迁移到对未知类别的预测,因此为解决上述问题提供了创新性的思路。目前,大多数零样本行为识别方法都是研究基于静态图片的目标识别问题,将此类方法直接应用于基于视频序列的零样本行为识别问题时会导致时序信息缺失、不能有效学习到复杂行为的视觉信息和类别语义的关联关系。针对这些问题,本文重点研究利用具有时序特性的视觉特征和具有语义相关性的语义表示来构建更有效的视觉到语义的映射关系,同时将单标签任务扩展到多标签行为识别。本文主要工作如下:(1)提出了一种基于时序建模和时空网络的零样本行为识别方法,该方法设计双流时空网络将视觉特征映射到语义嵌入空间,网络中的空间流和时间流分别对RGB和光流信息进行处理。通过卷积神经网络预先提取特征后利用循环神经网络对序列特征的上下文信息进行建模,充分获取到视频中的时间动态信息。最后将具有高层语义的时空特征进行融合来增强视觉嵌入的表征能力,提高了对未知行为类别的识别性能。(2)提出了一种基于联合空间和时空网络的零样本行为识别方法,该方法中采用联合(公共)空间来搭建视觉空间和语义空间的桥梁,将视频数据的视觉特征和标签的语义表示都嵌入到这个空间来学习视觉语义的对应关系。这种映射关系不仅能够建模视觉特征和语义表示各个维度的关系,而且同时优化视觉特征、语义表示以及类别标签的关联性,从而构建了更有效的视觉到语义的映射关系,进一步提高了零样本行为识别的准确率。(3)提出了一种基于联合空间和多标签学习的零样本行为识别方法,该方法将单标签任务扩展到对多标签行为数据的识别。针对多标签学习的复杂性,本文利用联合潜在嵌入学习方法为视觉特征和语义表示学习一个联合潜在空间,并通过将人类行为的视觉信息和语义表示分别映射为该空间中的视觉嵌入和语义嵌入以寻找对应关系。同时,在模型学习中交替训练视觉模型和语义模型并设计多损失函数优化来完成多标签零样本行为识别任务。