论文部分内容阅读
在人工智能领域,建立视觉理解和人机交互之间的联系是一项具有挑战的任务。目前深度学习技术广泛应用在计算机视觉和自然语言处理等领域,虽然基于深度学习的视频自动描述生成任务在建立视觉内容与自然语言连接上取得一定进展,但它通常描述视觉内容的粗略语义信息,缺少对不同视觉线索之间的建模以及推理的能力。而视频问答需要模型能够全面理解出现的视觉场景,这就要求模型能够对不同层次的视觉、文本内容甚至是外部知识进行理解并找到正确的答案。人脑在应对和视觉问答类似的认知任务时,不仅需要对当前接收到的信息进行处理,还需要根据接收到的信息对大脑中存储的知识进行检索和推理。因此记忆和外部知识在认知理解的过程中有很重要的作用。基于记忆和外部知识对认知理解的影响,本文提出两方面的探索,首先层叠记忆网络(LMN)通过分级的表示过程使视频特征中包含更多的语义信息,其次引入了一个名为PlotGraphs的新数据集作为外部知识,同时提出的图表示网络(PGRN)能够结合LMN处理视频问答任务。具体来说,LMN通过静态单词记忆和动态字幕记忆分别存储单词和视频字幕信息,然后通过分级地表示过程使帧级和片段级的视频表示中包含更多的语义信息。这个过程不仅对每一帧的视频内容和单词之间的对应关系进行编码,而且还对视频片段内的字幕和帧之间的时间对应关系进行编码。文章引入的PlotGraphs数据集作为外部知识包含大量基于图结构的视频信息,同时PGRN能够表示图中结点的语义以及关系信息并且能够和LMN组成新的模型提升对视频内容的理解。本文提出的方法在MovieQA数据集和PlotGraphs数据集进行了大量实验。仅使用视频内容作为输入,具有帧级表示的LMN模型的性能得到了提升。当同时利用字幕合信息时,LMN模型在“视频+字幕”的在线评估任务中达到了最好的性能。在整合外部知识后,同时包含LMN和PGRN模型的性能进一步提升。