论文部分内容阅读
最近,计算机视觉和自然语言处理相结合的新领域受到了广泛的关注,例如视频描述生成,视频问答等。其中,视频问答作为一个非常新的研究领域吸引了很多的研究人员。它的目标是根据给定的视频和相应的问题给出正确的回答。视频问答的类型包括:单个单词的回答,完整句子的回答,填空题以及多选题。在本文中,我们研究的是最新提出的电影描述空白填空任务。在这个任务中,问题是丢失了一个单词的电影描述,视频是电影的一个片段。电影描述空白填空任务的目标是准确地预测出空白处丢失的单词。在以前提出的用于解决电影描述空白填空问题的模型中,最开始的方法没有强调视频与问题之间的相关性,仅仅简单地将它们的特征合并在一起,然后将其用于对空白处单词进行预测。随后的方法使用到了注意力机制,但是也仅仅从问题层面对视频特征赋予不同权重,从而生成问题层面的注意力向量并用于最后的单词预测。为了克服上述两个方法的局限性,我们在本文中提出了两个模型:分层的多层次注意力模型和分层的多层次多模态注意力模型。在分层的多层次注意力模型中,我们不但从问题层面来计算注意力向量,同时也从问题中的单词层面来对视频帧赋予不同的权重。单词层面的注意力机制用于更新视频内容,突出视频与文本相关的部分。问题层面的注意力机制用于更新问题的特征,使得问题更关注到视频内容,从而提高预测的准确率。在此模型上,我们又加入了不同模态的多层次注意力:帧层面的注意力机制和视频层面的注意力机制。帧层面的注意力机制是为了将问题的内容更加聚焦到视频和问题相关的部分。视频层面的注意力机制用于生成更贴合问题的视频特征。最后视频特征融合问题层面的注意力特征来对空白处的单词进行预测。在对问题和答案进行分析的时候,我们注意到有些单词的预测需要视觉内容的参与,而有些单词的预测并不需要视觉内容。比如“she sits on the chair”。当我们需要预测的单词是“on”的时候,我们仅仅通过语义上的信息就足以预测出这个单词。然而,当预测的单词是“chair”的时候,就一定需要视觉内容的参与来正确地预测空白处的单词。针对这个问题,我们提出了自适应时间注意力机制和描述更新模型。在这个模型中,自适应时间注意力机制是通过参数来自适应地决定视觉内容参与到单词预测的比例。描述更新是为了将描述聚焦到视频中的重要内容上。在上一个模型中,我们简单地将不同文本的特征向量拼接在一起。由于不同文本对单词预测的影响是不一样的,因此,我们提出了改进的自适应时间注意力机制和描述更新模型。在这个模型中,我们利用注意力机制将两个不同文本的特征向量融合在一起。我们通过实验对比了我们提出的算法和以前算法在MovieFIB数据集上准确率。所有的实验都表明,我们的算法都比以前的算法具有更高的准确率。