基于自底向上和互关注的图像问答系统

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wr123456789dtdx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,深度神经网络体现出强大的学习能力,推动着计算机视觉和自然语言处理领域的发展。图像命名,物体分类,图像问答等计算机视觉和自然语言交叉学科也得到了很大程度上的发展。图像问答是以一张图片和基于图像的问答为输入,经过计算机的处理,输出基于图片的问题答案。大体的图像问答分为四步:第一步,提取图像特征;第二步,获取问题语义信息;第三步,结合图像语义信息;第四步,答案推理。其中,大多数的图像问答解决方案都是使用CNN(Convolutional Neural Network)来提取图像特征,我们称之为自顶向下的关注机制。在自顶向下的关注机制中,图像的每个像素对整体的图像特征是等贡献的。图像中的有用信息(图像中的物体)和无用信息(背景这种没有任何实物的信息)对整个图像特征也是等贡献的。通过这种方式,提取到的图像特征包含很多无用信息。除此之外,图像和文字特征信息融合,目前图像问答采取的方式有简单的特征向量相加、相乘以及单方面的关注机制。针对这两个问题,本文给出了相应的改进方法。针对图像特征冗余这一问题,我们选择采用一种自底向上的方式。通过这种方法,在提取全局分布信息的同外,还能得到图片的区域细节信息。这一框架主要是通过Fast R-CNN提取图片特征完成的。此外,图像特征和区域特征融合这里,我们采用了一种互关注机制。第一步:将问题总结成为一个单一向量q;第二步:基于上一步生成的问题向量生成图像信息;第三步:基于上一步生成的图像特征生成问题特征。互关注机制和普通的关注机制的差别在于,互关注是采用加权后的图像特征生成问题特征的权重。而不是单单用最初得到的未加权的特征,生成文字特征的权重。通过这一交互,能够得到更好的特征融合结果。我们的实验结果显示,在VQA2.0和visual genome数据集上,模型准确率都高于目前最好的实验结果。
其他文献
目的:探讨microRNA-98(miR-98)对视网膜母细胞瘤Y79细胞增殖和转移的影响。方法:将人视网膜母细胞瘤细胞株Y79分为四组:miR-98干预组、阴性miRNA对照组、空白脂质体组和空白对照组
以文献研究为线索,对2000-2008年在国内12种主要外语期刊上发表的有关大学英语教学评价研究的文章进行检索,在统计分析检索所得的17篇相关论文的基础上,指出我国的大学英语评
随着我国高职教育的大发展和学习型社会的建立,高职院校教师队伍面临着日益严重的危机和挑战。在建设学习型社会的背景下应充分认清高职院校教师再培训的必要性和重要性,并针
目的:探讨抗癫癎药物对大鼠海马胶质细胞凋亡的影响。方法:35只60天龄SD大鼠随机分为生理盐水组(NS)、戊四氮(PTZ)组、卡马西平组(CBZ)、丙戊酸钠组(VPA)、苯妥英钠组(PHT)、
河北梆子《活捉三郎》是一出传统的优秀剧目,选自中国四大名著《水浒传》里的一个故事,说的是水性杨花闫惜娇移情别恋,被宋江杀死后,她的鬼魂为了爱慕张文远的潇洒深夜相仿的
高考具有一定的选拔能力,是对学生综合发展水平进行的一项考核,与传统的高考模式不同,新高考更加重视同学们的综合能力考察,强调在具体环境下学生的实践能力。学生在面对新高
目的初步探讨卡介苗(Bacillus Calmette-Guerin,BCG)分泌性蛋白在体外培养试验中对人单个核细胞的刺激效应。方法用淋巴细胞转化试验(MTT法)检测单个核细胞经卡介苗纯蛋白衍化物(BC
随着环境问题的日益凸显,许多发达国家的企业把环境绩效审计作为环境管理的重要手段之一。然而,我国有关企业内部环境绩效审计的研究还比较少,还没有建立起比较完善的评价指
图像问答又称视觉图像测试,是指给定一幅图像和一个用自然语言描述的问题,计算机能自主根据图像内容做出相应回答的过程。它是深度学习在计算机视觉领域成功应用的主要研究方
1仔猪春季应激性腹泻特点概述“仔猪春季应激性腹泻”是指由于某些不良应激因素作用引起仔猪产生“即时性腹泻”的一种症候群(存在继发或并发感染),临床常见的不良应激源有:环境