论文部分内容阅读
近年来,随着信息技术的快速发展和智能设备的大规模普及,现代社会中产生了大量的视频数据。考虑到视频帧与帧之间的时序相关性,上下文在视频理解研究中必然发挥着重要作用。现实生活中的视频大多持续时间很长,而且很可能包含多种多样的行为片段以及用户不感兴趣的背景内容。为了理解视频内容,研究者需要首先识别出包含行为的语义片段,然后分析片段内容。因此本文首先研究了时序行为检测技术,用来识别视频中所有行为片段的时间边界(即开始和结束点)以及相应类别。时序行为检测任务通常可以分为两个阶段,即推荐框生成和行为分类,其中推荐框生成任务通过预先生成可能包含行为的推荐框,便于后续行为分类。在检测到行为片段之后,本文研究了视频描述生成技术,针对某段视频内容生成描述语句。这些技术都有着重要的社会和现实意义。时序行为检测技术可以识别监控视频中的异常行为,而视频描述生成技术可以将视觉内容转换为语言信息。由于现有视频理解技术对于上下文信息的挖掘不够深入,本文专注于研究如何更有效地利用上下文来加深视频内容的理解。本文针对时序行为检测和视频描述生成技术展开了讨论,总结如下:为了生成时序行为推荐框,本文研究了不同序列学习网络用于视频序列中的上下文建模,包括卷积网络和自注意力网络。考虑到之前的算法对于预定义锚框时长的限制,本文提出了一种基于卷积网络的多尺度时序行为推荐框生成算法。首先,该算法利用扩张卷积对视频特征序列的上下文建模,通过并行化实现了网络加速。其次,该算法将网络感受野范围划分为多个时间尺度,在每个尺度下引入了时长回归来细化推荐框的边界。基于这种多尺度时长回归机制,该算法放宽了锚框时长限制,并生成了具有任意时长的行为推荐框。为了进一步放宽锚框以及网络建模范围的限制,本文提出了一种基于双层自注意力网络的时序行为推荐框生成算法。该算法包含两个模块,分别针对帧级关系和推荐框级关系建模,完成推荐框生成任务。在帧级关系模块,该算法将注意力头划分为若干组,并编码不同时间位置的上下文信息,有效捕获了视频序列的时间边界信息。在推荐框级关系模块,该算法将推荐框之间的相对位置信息融入推理过程,从而增强了这些推荐框的特征表示。在生成时序行为推荐框之后,本文提出了一种基于视频上下文细化推荐框的时序行为检测算法。首先,为了细化每个推荐框,该算法用两个相邻的等长片段来扩增该框,利用过去和未来片段的上下文信息来辅助检测扩增区域内部的目标片段。其次,该算法不仅回归了目标片段的时间位置,而且回归了它们与真实标注的交并比。基于这种回归机制,该算法为目标片段获得了更精确的位置及行为概率估计,从而改善了整体检测性能。考虑到之前的算法对于视频时序结构的刻画不够细致,本文提出了一种基于时空上下文和通道注意力机制刻画时序结构的视频描述生成算法。首先,通过改变循环卷积网络中卷积核的尺寸,该算法将不同时空范围的上下文融入视频特征表示。其次,该算法在帧注意力基础上融合通道注意力机制,突出了通道级别特征在生成描述单词时的内部参与作用。总之,该算法更细致地刻画了视频时序结构,从而改善了描述生成的性能。本文针对上述算法进行了充分的实验以及分析。实验结果表明,本文所提出的算法不但有效提取了视频内容中的潜在信息,而且在性能评估中的表现优于同类算法。