论文部分内容阅读
近年来,随着深度学习的应用和多模态的深入研究,与此对应的问答系统也从传统的文本问答扩展到结合图片的视觉问答,成为计算机视觉与自然语言理解的交叉研究热点之一。现有视觉问答处理方法的基本思想是通过融合提取后的图像和文本特征来实现对答案的预测。但是此类方法一般会忽视了图像的空间分布信息,未能够合理的利用图像的空间分布信息与文本之间的关系。本文通过对视觉问答中的图像和文字信息开展多模态的研究,提出了一种新的空间离散余弦哈希动态参数网络方法,所提方法可同时结合问题特征和图像特征实现视觉答案的预测。进一步,针对招牌检索这一实际应用问题,本文在前期视觉问答跨模态研究的基础上,结合目前计算机视觉学术界广泛使用的深度学习方法提出一种能处理多角度、多模态信息的招牌检索算法。本文对跨模态问答和检索问题研究的主要工作如下:1、提出了在不增加网络参数的情况下采用全卷积的方式来完成对图像的空间分布信息的提取。同时采用空间离散余弦哈希动态参数网络来动态结合问题特征和图像特征,从而使得答案的预测能够充分考虑图像的局部空间信息。2、本文整理了多角度的、多信息的招牌数据集(总计店铺约2400家,图片约23000张),数据集中每间店铺包含多张图片,且含有该店铺的GPS信息以及店铺名称街道名称等特征。3、采用多模态信息对招牌进行识别,本文提出CMR-Net模型有效地结合了招牌的图像特征和文本特征,从而能够完成处于不同环境下招牌检索任务,并且在本文的招牌数据集上已经能达到商用精度。最后本文在视觉问答公开数据集上(MSCOCO-VQA,COCOqa)进行实验,实验表明本文的方法较以往的方法有性能上的提升,能够达到更高的准确率。同时本文还在自己的招牌数据集上对本文的招牌检索算法和一些常见的图像检索算法进行性能对比,实验表明本文的跨模态招牌检索模型具有比较好的检索效果。