论文部分内容阅读
随着硬件设备的发展,网络服务的普及以及社交媒体的兴起,每天都有海量视频数据被源源不断地生产出来,如何从这些视频中提取有价值的信息成为一个亟待解决的问题。作为一种新兴技术手段,视频问答能够基于问题针对性地提供视频中包含的各类物体和动作等诸多相关信息,其不仅可以提升信息提取的效率,而且拥有广泛的应用场景。视频问答主要涉及到文本信息理解,视频信息理解以及两者之间的交互,其中文本信息理解的算法发展较为成熟,目前已经能够在复杂的推理任务上取得不错的性能,而视频信息理解方面的发展则相对落后,包括分类、检索在内的多项基础任务仍然是当下的研究热点。现有的视频问答算法都直接使用了预训练的视频分类模型来提取视频信息表征,而这种方式通常依赖于大量的人工标注数据,因此其扩展和迁移能力都会相对受限。自监督学习能够自动从数据中生成标签并基于此来优化模型,因而更适合与现今的海量视频数据相结合。相较于图像,视频包含额外的时间维度以及声音等多通道信息,故在视频问答中需要考虑到基于时间维度的文本和多通道信息的联合推理。
基于上述背景,本文主要研究了面向视频理解的自监督学习算法以及基于多通道注意力优化的视频问答算法。具体来说,本文的主要贡献如下:
·针对三维卷积神经网络的训练依赖于大规模、高质量标注数据的痛点,本文提出了基于视频片段顺序预测的自监督学习算法。该算法将视频的固有时序作为一种监督信号,首先利用三维卷积神经网络提取视频片段的特征,然后利用排序网络来预测多个被打乱视频片段本来的时序,最终使得模型通过完成该任务来学习到视频的语义信息。本文测试了多种不同结构的三维卷积神经网络,通过使用最近邻检索以及将其微调到人体动作识别任务,证明了该算法能够让不同类型的三维卷积神经网络学习到有意义的视频语义先验,并在相关任务上取得性能提升;
·为了使三维卷积神经网络基于无标签视频数据进行更有效的时空建模学习,本文提出了基于时空旋转预测的自监督学习算法。该算法对单个视频片段施加了空间和时间上的旋转变换,首先使用三维卷积神经网络提取视频片段特征,然后利用解决器来预测被施加变换的具体参数,最终使模型学习到时空相关的视频语义信息。本文测试了多种时空旋转预测的架构,通过比较这些架构在人体动作和动态场景数据集上的表现,不仅证明了时空旋转能够有效的提升数据集的数据使用效率,也表明了空间旋转和时间旋转在学习视频语义方面具有互补性。本文还可视化了三维卷积神经网络学习到的权重并对其进行了分析,进一步揭示了时空旋转所引入的视频语义先验知识;
·为了实现问题和视频所包含语义信息的充分交互,本文提出了一种基于多通道注意力优化的视频问答算法。在该算法中,问题和视频的多通道信息会通过注意力内存单元进行基于问题导向的交互,进而融合出与问题最相关的视频语义表征并给出答案。本文提出的算法使用长短时记忆网络来理解问题的语义,并使用该语义特征来实现通道内和通道间的注意力优化机制。通过在两个视频问答数据集上进行测试,证明了该算法的有效性。各通道的注意力权重能够反映算法在回答问题时对于不同信息的关注程度,使得该算法拥有良好的解释性。最后,本文还测试了在视频问答中使用基于自监督学习算法训练的视频语义信息提取模型,进一步证明了前文提出的自监督学习算法能够学习到高质量的视频语义特征。
基于上述背景,本文主要研究了面向视频理解的自监督学习算法以及基于多通道注意力优化的视频问答算法。具体来说,本文的主要贡献如下:
·针对三维卷积神经网络的训练依赖于大规模、高质量标注数据的痛点,本文提出了基于视频片段顺序预测的自监督学习算法。该算法将视频的固有时序作为一种监督信号,首先利用三维卷积神经网络提取视频片段的特征,然后利用排序网络来预测多个被打乱视频片段本来的时序,最终使得模型通过完成该任务来学习到视频的语义信息。本文测试了多种不同结构的三维卷积神经网络,通过使用最近邻检索以及将其微调到人体动作识别任务,证明了该算法能够让不同类型的三维卷积神经网络学习到有意义的视频语义先验,并在相关任务上取得性能提升;
·为了使三维卷积神经网络基于无标签视频数据进行更有效的时空建模学习,本文提出了基于时空旋转预测的自监督学习算法。该算法对单个视频片段施加了空间和时间上的旋转变换,首先使用三维卷积神经网络提取视频片段特征,然后利用解决器来预测被施加变换的具体参数,最终使模型学习到时空相关的视频语义信息。本文测试了多种时空旋转预测的架构,通过比较这些架构在人体动作和动态场景数据集上的表现,不仅证明了时空旋转能够有效的提升数据集的数据使用效率,也表明了空间旋转和时间旋转在学习视频语义方面具有互补性。本文还可视化了三维卷积神经网络学习到的权重并对其进行了分析,进一步揭示了时空旋转所引入的视频语义先验知识;
·为了实现问题和视频所包含语义信息的充分交互,本文提出了一种基于多通道注意力优化的视频问答算法。在该算法中,问题和视频的多通道信息会通过注意力内存单元进行基于问题导向的交互,进而融合出与问题最相关的视频语义表征并给出答案。本文提出的算法使用长短时记忆网络来理解问题的语义,并使用该语义特征来实现通道内和通道间的注意力优化机制。通过在两个视频问答数据集上进行测试,证明了该算法的有效性。各通道的注意力权重能够反映算法在回答问题时对于不同信息的关注程度,使得该算法拥有良好的解释性。最后,本文还测试了在视频问答中使用基于自监督学习算法训练的视频语义信息提取模型,进一步证明了前文提出的自监督学习算法能够学习到高质量的视频语义特征。