论文部分内容阅读
视觉问答(VQA)系统是将图片和问题作为输入,计算机结合输入的图像和文字信息,产生一条人类语言作为输出的任务,它运用了计算机视觉和自然语言处理两个领域方面的知识。在视觉问答中,计算机视觉(CV)技术用来理解输入图像,自然语言处理(NLP)技术用来理解输入的问题以及生成答案。VQA的关键解决方案主要在于如何融合从输入图像和问题中提取的视觉和语言特征。近年来,许多基于CNN+LSTM的网络能够表现出很好的效果,最近许多网络将attention应用到VQA中。尽管如此,VQA回答问题的准确率仍然并不理想,特别是在关系推理以及计数方面。为了解决这个问题,本研究中选择采用协同注意机制的训练方法来训练网络,其中协同注意力机制的作用是生成图像-问题对的双相关特征,并使用推理模块来推理图片中对象的关系以及图片中对象与问题的关系,帮助模型预测答案。本文重点研究了基于协同注意力机制的视觉问答系统,其主要研究内容包括:1)深入研究了协同注意力机制,构建一个有效的协同注意力机制,通过co-attention协同注意力生成图像-问题对的双相关特征,让网络可以自主学习双相关特征,通过实验验证,使得视觉问答的准确率有所提升。2)针对视觉问答在复杂问题上准确率不高的问题,构建推理网络(RN)模块,通过RN进一步提高模型的推理性,使得模型能够提取有关复杂问题的有关特征。3)将经过RN网络推理的特征输入co-attention中提取双相关特征,帮助模型预测答案,提高系统在回答关系推理等复杂问题的准确性。