基于协同注意力机制的视觉问答系统研究与实现

来源 :天津工业大学 | 被引量 : 0次 | 上传用户:xionglongyan0817
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉问答(VQA)系统是将图片和问题作为输入,计算机结合输入的图像和文字信息,产生一条人类语言作为输出的任务,它运用了计算机视觉和自然语言处理两个领域方面的知识。在视觉问答中,计算机视觉(CV)技术用来理解输入图像,自然语言处理(NLP)技术用来理解输入的问题以及生成答案。VQA的关键解决方案主要在于如何融合从输入图像和问题中提取的视觉和语言特征。近年来,许多基于CNN+LSTM的网络能够表现出很好的效果,最近许多网络将attention应用到VQA中。尽管如此,VQA回答问题的准确率仍然并不理想,特别是在关系推理以及计数方面。为了解决这个问题,本研究中选择采用协同注意机制的训练方法来训练网络,其中协同注意力机制的作用是生成图像-问题对的双相关特征,并使用推理模块来推理图片中对象的关系以及图片中对象与问题的关系,帮助模型预测答案。本文重点研究了基于协同注意力机制的视觉问答系统,其主要研究内容包括:1)深入研究了协同注意力机制,构建一个有效的协同注意力机制,通过co-attention协同注意力生成图像-问题对的双相关特征,让网络可以自主学习双相关特征,通过实验验证,使得视觉问答的准确率有所提升。2)针对视觉问答在复杂问题上准确率不高的问题,构建推理网络(RN)模块,通过RN进一步提高模型的推理性,使得模型能够提取有关复杂问题的有关特征。3)将经过RN网络推理的特征输入co-attention中提取双相关特征,帮助模型预测答案,提高系统在回答关系推理等复杂问题的准确性。
其他文献
通过对上世纪90年代中期以来山东省科学文献情况和专利授权情况以及技术对外依存度的分析我们发现,同兄弟省份相比,山东省的自主创新能力同其经济大省的地位还不相符。影响山
随着高等教育越来越走向国际化,大学生“出国热”尤为明显,导致人才流失现象严重。这种现象表明中国高等教育民族化发展的不完善,留不下人才的现状。从高等教育的民族化角度出发
目的:探讨桡动脉返支为蒂桡骨茎突骨瓣转移治疗腕舟骨不愈合的优点及疗效.方法:通过用桡动脉返支为蒂桡骨茎突骨瓣转移治疗12例舟骨骨折不愈合患者.男9例,女3例.结果:112例经
摘要:在城镇化发展过程中,随着人们的环保意识不断增强,在追求经济发展的同时,开始注重环境与经济的协调发展。在此基础上,本文通过分析城市道路交通与环境现状,同时分析城市道路交通产生的环境问题,提出相应的政策建议,进而为城市交通和环境的协调发展提供参考依据。  关键词:城市环境城市交通协调发展  0引言  随着近年来我国经济的不断高速发展,城市化进程的不断推进,我国人均GDP不断增长,城市私家车保有量