论文部分内容阅读
随着计算机视觉和自然语言处理的快速发展,视觉问答系统(VQA)成为深度学习中越来越热门的研究领域之一。在自然语言处理的领域中,基于语言的问答已经被广泛研究,并且取得巨大的成就,然而,涉及到视觉的问答系统却鲜为人知。视觉问答系统是一门交叉学科的研究方向,其主要的目的是根据相关的视觉内容(图片或者视频)自动回答自然语言的问题,是未来人工智能领域重点的研究方向之一。通过模拟真实世界的情景,视觉问答可以帮助存在视觉障碍的用户进行实时的人机交互,这也是视觉问答发展的前景。视觉问答最早来源于图灵测试,而基于深度学习的视觉问答方法研究是近几年刚刚兴起的热门领域。对深度学习的研究越来越受到人们的关注,例如基于深度哈希的大规模图像检索,可以在百万级的图像集里快速找到相似图像的近邻。基于深度学习的视觉问答系统作为一个新兴的研究的方向,值得我们去学习和挖掘的地方还有很多,同时,我们面临的挑战也会越来越大。近些年,已经有大量的论文使用注意力机制去解决视觉问答的问题,这些注意力机制主要包括视觉注意(“where to look”)或者问题注意(“what words to listen to”),并且这些方法在实践中都已经被证实是有效的。然而,大多数已有的方法主要是对预测误差的建模,却忽略了图像注意和问题注意的语义相关性。因而,这样的方法带来的注意力机制不可避免的是次优的结果。在这篇论文中,我们首先提出不仅要建模视觉和问题注意,建模它们之间的语义相关性也是同等重要的,同时利用这些共同的表征学习去解决视觉问答的问题。在这篇论文中,我们提出了一个新颖的端到端的模型,这个模型通过学习跨模态语义相关性的注意力机制从而有效地解决视觉问答的问题。特别地,我们提出一个多模态映射方法即将视觉注意和问题注意映射到共同的高维空间中从而保证它们的语义一致性。实验结果表明我们的方法有效地提高了当前视觉问答的效果。另一方面,当前已有的大多数方法都是通过问题和整张图片去预测答案,却没有考虑到问题的引导作用。同样地,大多数使用注意力机制的方法在物体空间推断上都是作用在像素级别而不是物体级别。因此,我们另外提出了一个新颖但是简单的框架,通过探索问题的语义、细粒的图片信息以及它们两者之间的关系来提高视觉问答的性能。首先,我们通过一个问题模型来提取问题的语义信息,并且利用有效的物体检测网络来获得全局的视觉特征以及最高的个物体区域的局部特征。其次,我们方法中的注意力机制选择跟问题相关的物体区域。第三,我们通过softmax分类器来优化问题模型以及注意力机制从而预测最终的答案。在三个公开的视觉问答数据集上,实验结果表明我们的方法超过了已有的视觉问答模型。