论文部分内容阅读
针对视觉问答(VQA)任务中现存深度协同注意模型只考虑问题引导图像的单向注意方式,导致多模态学习交互性不足的问题,提出一种多模态双向导向注意力网络。该网络由多模态特征提取模块、双向导向注意力模块、特征融合模块以及分类器组成。将提取出的图像和问题特征分别经过层层注意后输出加权的注意特征;经过特征线性融合后送入softmax分类器,得到问题的预测答案;再结合计数模块提升模型的计数能力。结果表明,该模型在公共数据集VQA v2.0上表现良好,在test_dev和test_std测试子集上分别获得70.77