基于深度学习的视觉问答研究

来源 :杭州电子科技大学 | 被引量 : 1次 | 上传用户:kk289952728
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉问答(Visual Question Answering,VQA)是一项结合自然语言处理(Natural Language Processing,NLP)与计算机视觉(Computer Vision,CV)的联合学习任务。作为一个全新的跨领域研究方向,VQA需要在理解图像内容的基础上,根据具体问题给出符合人类表述习惯的回答。这一任务的关键在于对图像视觉信息与文本语义信息进行充分理解,挖掘出两类数据模态之间的关联关系。本文在VQA现有研究基础上,对涉及到的关键性问题展开深入研究,具体内容如下:针对现有视觉问答研究无法有效利用注意力机制以及忽视图像-问题-答案三元组之间隐藏关系的问题,本文提出了一种基于多层注意力机制的视觉问答方法。通过使用Faster-RCNN和门控循环单元(Gated Recurrent Unit,GRU)来提取图像视觉特征和问题语义特征,并利用引入多层注意力机制的Transformer模型实现多模态信息交互,获取融合答案语义信息和图片-问题融合信息的特征,最后根据获取特征进行答案预测。实验结果表明,本文提出方法准确率达到67.23%,在实验结果上优于现有研究方法,验证了提出方法的有效性。针对现有视觉问答研究未能充分利用图像的物体关系以及高层语义特征的问题,本文提出一种基于高层语义以及图卷积网络的视觉问答方法。首先,设计一个语义关系特征检测器,利用Faster-RCNN和Vr R-VG数据集学习图像中单个物体属性及物体间的高层语义关系;其次,采用自循环来探究图像和问题间的共现关系;最后,通过图卷积神经网络(Graph Convolutional Network,GCN)对语义关系和共现关系进行结合,生成基于问题的视觉特征图表示,并将其反馈到传统VQA模块中进行答案预测。本文提出方法在VQA2.0的数据集上的测试准确率达到67.3%,论证了高层语义信息和图卷积网络在视觉问答的重要性。最后,本文对上述研究工作进行了总结与展望。
其他文献
为提高局域电网在恢复初期的电压稳定性,并为火电机组留有较大的有功发电能力,以启动更多电源,提出一种基于蝙蝠算法的风储火多源无功协调控制策略。通过分析风储火多源并列
以油膜轴承磨损量服从正态分布为前提,通过磨损量概率密度函数得出可靠度计算公式,进而推导出油膜轴承在一定可靠度下的磨损寿命公式,可推测出高速线材精轧机油膜轴承的使用
随着我国经济的发展和社会的进步,民营经济在国家政策的支持和自身的努力下兴起、壮大并不断取得新成就。作为民营企业的掌舵者,民营企业家也在企业规模的扩大、经济效益的提升中不断实现个人价值,从而涌现出了一批又一批富豪,缔造了一个又一个财富神话。与此同时,越来越多的企业家意识到承担社.会责任的重要性,中国的慈善事业也在社会各界尤其是企业的支持下取得了长足进步。根据中国慈善总会近几年发布的《慈善捐赠报告》,
视觉显著性是指人类在观察某一区域时视野中存在能够引起人类视觉关注的局部区域,该局部区域被称为显著性区域。视觉显著性检测主要用于凸显图像或者视频中的显著性区域。随
企业信用评价是商业银行信贷管理的关键环节,它直接关系贷款的安全性和收益性。本文试图建立一个具有科学性和有效性的企业信用评价方法,来解决商业银行信用评价问题。首先,
锯齿新米虾属于十足目、匙指虾科、新米虾属,学名为Neocaridina denticulatc,是一种常见的淡水小型虾。该种的卵子为大型卵,具有抱卵习性,受精卵黏附在母体上直接发育,具有很高的
射频识别(Radio Frequency Identification,简称RFID)是一种利用射频信号进行信息传递从而实现自动识别目标技术。其中超高频(Ultra-High Frequency,简称UHF)RFID因为其有效
地方国有控股投资公司是国有经济的重要组成部分,在地方经济的发展中起着不可小觑的作用。随着国家经济发展水平的不断提高,国家经济体制改革的不断推进,地方国有控股投资公
【研究背景与目的】脉络膜新生血管(CNV)是湿性年龄相关性黄斑变性(nAMD)的主要病理特征,是引起视力不可逆性急剧下降的主要原因。抗血管内皮细胞生长因子药物作为目前最有效的新
本文通过文献资料法、问卷调查法、数理统计法等研究方法对随机抽取的南阳市13所中小学在开展"阳光体育"活动背景下广播体操在其学校的开展状况进行了调查分析,并针对其开展