论文部分内容阅读
互联网上丰富的视觉和自然语言数据使得多模态任务成为了人工智能相关研究领域的热门主题,其中需要综合理解跨模态信息的视频问答任务更是受到了广泛关注。视频问答任务的目标是通过理解相关视频内容生成给定问题自然语言形式的回答,这在多媒体信息检索网站或者智能助理商业服务上大有用处。众多的研究工作将开放域视频问答视作多模态信息特征学习和理解任务,这些研究成果中的大部分将注意力投向了基于静态图片的问答任务,然而静态图片问答方法由于缺乏对视频时序动态敏感信息建模的能力,使其难以适用于视频问答任务。本文提出了基于分层空-时域注意力网络的视频问答方法,在经典的Encoder-Decoder框架基础上,学习不定长度视频和问题文本动态内容的联合特征并生成给定问题的答案。利用空间注意力网络,本文所提模型能够定位每一视频帧中包含回答问题最关键信息的区域。时域注意力机制则理解视频帧之间的重要性差异,选择性抽取出整个视频中的重要帧内容。为了对视频中时序敏感信息建模,本文所提出的模型运用注意力机制改进了门控制循环单元(Gated Recurrent Unit,GRU)网络结构,用以学习视频帧的时间维度顺序关系。同时本研究在分层空-时域注意力特征学习网络基础上进一步引入了多步推理过程,迭代更新模型所学得视频和问题联合特征,优化模型特征学习能力。出于模型验证目的,本研究中构造了大规模的视频问答数据集。利用构造的数据集,以前沿的图像问答方法和视频问答方法作为比对模型,进行了充分的实验以验证文中所提出模型在视频问答任务上的有效性。为了适应视频问答任务,实验中对这些图像问答方法都应用了必要的扩展。实验结果表明,本研究所提出的模型在各项性能指标上均好于这些强劲的对比模型,从而证明了本文所提出的模型的有效性和优越性。此外,本文还设计并实现了开放可用的视频问答系统,以展示本文所提出的视频问答方法实际效果。视频问答系统的实现以Facebook Messenger Platform为载体,以Chatbot形式将用户与后台视频问答模型服务进程连接起来。系统测试结果验证了视频问答系统各项服务的出色表现。视频问答系统目前已可公开访问。