论文部分内容阅读
随着摄像机和智能手机的普及,在网上出现了爆炸式指数增长的视频,这些大量无组织的网上视频内容无疑会降低用户的体验度。因为要想查看相关视频并抓住视频内容里面的主旨是要消耗很多时间并且乏味的,所以我们迫切需要提供一个高效且符合用户的方法去组织和浏览这些大量的视频数据。我们引进了视频总结和标题生成的方法来满足上面的需求。我们的框架包括两部分:一个基于深度卷积神经网络(CNN)的编码网络和一个基于注意力机制的长短时间记忆神经网络(LSTM)作为解码网络。在编码网络中,我们首先提取关键帧来表示整个视频内容,然后将关键帧输入到编码网络提取视频特征。在解码网络中,我们引进能避免梯度消失的LSTM网络产生描述视频内容的语义性句子。视频内容总结是产生一个即对用户感兴趣又具有代表性的压缩版视频,视频内容总结可以分为:关键帧(由一系列具有代表性的图片组成)和片段(由一系列具有代表性的片段组成)。一个好的视频总结至少具有两个特性:1)包括视频中最感兴趣的部分,2)保持多样性去除冗余度。为了完成视频总结,我们首先利用视频的显著线索和动作线索得到稳定的显著权重和动作差别权重,然后用我们提出的选择模型提取满足用户的关键信息。我们提出一个独特的框架,结合这些权重预测每一帧的重要程度,重要的帧作为关键帧。我们的方法不需要通过训练来学习重要标准且能够预测之前未看过的视频。最近基于注意力机制的编码-解码框架的视频标题生成已经取得进展。然而还存在诸多问题:1)许多已经存在的解码方法,只考虑视频序列的动态时间注意力信息到自然语言过程的建模,而忽略视频内容和句子语义信息之间的关系。为了强调这个问题,我们提出了一个基于时间注意力机制的LSTM模型并结合语义一致性方法(aLSTMs)进行视频标题生成。2)已存在的解码方法,产生每一个单词,包括视觉单词(像“gun”,“shooting”)和非视觉单词(像“the”,“a”)结合注意力机制来关注最相关的视觉信息。然而这些非视觉单词能够很简单的结合自然语言模型就能预测出来。非视觉单词结合注意力机制可能误导或者降低整个视频标题生成的效果。为了强调这个问题,我们提出了一个结合可调节时间注意力机制的级联LSTM(hLSTMat)进行视频标题生成。这个框架利用时间注意力机制去选择特定帧预测相关单词,可调节时间注意力机制决定关注视觉信息还是自然语言信息。级联LSTM同时考虑低层次的视觉信息和高层次的语言信息来帮助我们的视频标题生成。为了证明上述我们提到的方法有效性,我们在MSVD和MSR-VTT两个数据集上做实验,结果显示,我们的方法取得了最好的效果。