基于协同注意力机制的视觉问答系统研究与实现

来源 :天津工业大学 | 被引量 : 0次 | 上传用户:xionglongyan0817
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉问答(VQA)系统是将图片和问题作为输入,计算机结合输入的图像和文字信息,产生一条人类语言作为输出的任务,它运用了计算机视觉和自然语言处理两个领域方面的知识。在视觉问答中,计算机视觉(CV)技术用来理解输入图像,自然语言处理(NLP)技术用来理解输入的问题以及生成答案。VQA的关键解决方案主要在于如何融合从输入图像和问题中提取的视觉和语言特征。近年来,许多基于CNN+LSTM的网络能够表现出很好的效果,最近许多网络将attention应用到VQA中。尽管如此,VQA回答问题的准确率仍然并不理想,特别是在关系推理以及计数方面。为了解决这个问题,本研究中选择采用协同注意机制的训练方法来训练网络,其中协同注意力机制的作用是生成图像-问题对的双相关特征,并使用推理模块来推理图片中对象的关系以及图片中对象与问题的关系,帮助模型预测答案。本文重点研究了基于协同注意力机制的视觉问答系统,其主要研究内容包括:1)深入研究了协同注意力机制,构建一个有效的协同注意力机制,通过co-attention协同注意力生成图像-问题对的双相关特征,让网络可以自主学习双相关特征,通过实验验证,使得视觉问答的准确率有所提升。2)针对视觉问答在复杂问题上准确率不高的问题,构建推理网络(RN)模块,通过RN进一步提高模型的推理性,使得模型能够提取有关复杂问题的有关特征。3)将经过RN网络推理的特征输入co-attention中提取双相关特征,帮助模型预测答案,提高系统在回答关系推理等复杂问题的准确性。
其他文献
通过对上世纪90年代中期以来山东省科学文献情况和专利授权情况以及技术对外依存度的分析我们发现,同兄弟省份相比,山东省的自主创新能力同其经济大省的地位还不相符。影响山
随着社会的不断发展,高血压的患病率呈现不断上升的趋势,在我国每年由高血压引起的心脑血管疾病而导致的死亡率也在不断上升.据估算,我国现有高血压患者超过1亿人.
时尚与科技有着一个显著的共同点,那就是“日新月异”。放眼望去,最关注未来趋势的企业往往是科技公司与时尚大牌,两者“引领”和“拓展”的共性,让科技与时尚紧密关联,甚至
随着高等教育越来越走向国际化,大学生“出国热”尤为明显,导致人才流失现象严重。这种现象表明中国高等教育民族化发展的不完善,留不下人才的现状。从高等教育的民族化角度出发
近年来我县养猪生产日趋规模化养殖、生猪生产方式的改变和市场的流通环节监管的薄弱,导致生猪疫病日益复杂,疾病防控上,给生产者和监管部门提出更高要求。本人结合工作实际,对我
目的:探讨桡动脉返支为蒂桡骨茎突骨瓣转移治疗腕舟骨不愈合的优点及疗效.方法:通过用桡动脉返支为蒂桡骨茎突骨瓣转移治疗12例舟骨骨折不愈合患者.男9例,女3例.结果:112例经
随着人民生活水平的不断提高,近年来嗜酒、暴饮者增多,使酒精性肝病(ALD)的发病率也呈逐年上升趋势.其中以酒精性脂肪肝(AFL)更为多见,由于目前临床尚无特效药物治疗,我们采
<正> 我院于9月22日正式成立了民族史研究会。成立大会由副院长宋蜀华主持。院党委副书记、副院长张养吾,历史系主任翁独健、副主任王钟翰,在会上讲了话。北京市历史学会会长白寿彝应邀到会做了报告。大会通过的研究会章程规定,今后将举办有关的
摘要:在城镇化发展过程中,随着人们的环保意识不断增强,在追求经济发展的同时,开始注重环境与经济的协调发展。在此基础上,本文通过分析城市道路交通与环境现状,同时分析城市道路交通产生的环境问题,提出相应的政策建议,进而为城市交通和环境的协调发展提供参考依据。  关键词:城市环境城市交通协调发展  0引言  随着近年来我国经济的不断高速发展,城市化进程的不断推进,我国人均GDP不断增长,城市私家车保有量
妊娠期肝内胆汁淤积症(ICP)已被公认为是对胎儿威胁较大的高危妊娠之一,因此不少学者就病因、胎盘病理、诊断及治疗等多个方面进行研究,但至今仍缺少有效的防治措施.近几年我