论文部分内容阅读
随着便携摄像机和智能眼镜等可穿戴设备的普及,人们可以通过视频记录自己的生活。但是,在各种时间、地点,以不同的目的上传的原始视频,大多数时间长度差异很大(短则几分钟,长则几小时)且充满噪声。浏览那些既冗长又没有固定结构的视频会浪费大量的时间而且枯燥无味,因此如何自动选出视频中的关键部分(重要或是特别有趣的片段)即视频精彩片段检测任务成为解决这个问题的关键。现有的大多数视频精彩片段检测方法都是提取视频整体特征,并没有考虑时空局部特征之间存在着差异。由于视频内容的复杂性,这种混合特征将会影响最终精彩片段的检测效果。通常,对于一段完整的视频,在时间维度上,并不是所有帧都值得欣赏,因为有些帧只包含背景环境没有人或其他运动物体。在空间维度上,当存在背景杂波时也不是每个区域都很重要。为了解决这些问题,本文主要做了以下工作:(1)提出了一种基于局部区域信息的深度排序模型,它可以在空间维度上找出关键区域。模型在卷积特征图的基础上为每个区域学习了一张位置敏感分数图,并借助高斯核进行位置池化操作,将图中响应值较高的区域提取出来作为该帧的重要信息,并通过考虑局部关键信息输出一个较好的分数来预测视频精彩片段。模型中的位置敏感机制可以很容易地嵌入至一个端到端的全卷积网络中,以便通过随机梯度下降的方法在反向传播过程中更新网络参数,提高模型的鲁棒性。(2)提出了一种三维(二维空间与一维时间)注意力模型,它可以在没有额外监督信息的情况下自动定位视频中关键区域。该模型可以在时间和空间维度上生成视频局部区域的注意力权重,关键区域具有较大的权重值。这样,模型可以获得一个更有效的特征表示来预测精彩分数。三维注意力机制同样可以很容易地嵌入到一个传统的端到端深度排序模型中,有助于学习一个深度神经网络来计算每个视频段的精彩分数,从而完成视频精彩片段检测任务。(3)在YouTube和SumMe这两个公开数据集上进行了大量实验,并与一些性能较好的方法进行比较,结果表明本文提出的模型明显提高了视频精彩片段检测的准确性。特别地,通过使用本文提出的三维注意力模型,在没有人工辅助的情况下,许多领域视频的精彩片段可以在时间和空间维度上被准确地检索出。