论文部分内容阅读
提出一种基于注意力机制的视觉问答系统,通过匹配图像中与问题相关的区域来回答基于图像的问题。通过拼接的方式将问题特征与图像特征映射到一个共享空间,再通过非线性层、线性层以及Softmax层来得到注意力权重。该方法将视觉问答任务视为一个多分类任务,将数据集中出现频率最高的1 000个答案作为候选答案。利用预训练的VGG16模型提取图片特征,利用LSTM网络提取问题特征,采用VQA数据集进行训练和测试。