基于深度注意力堆叠的视觉问答算法研究与实现

来源 :西北大学 | 被引量 : 0次 | 上传用户:gtsmk2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉问答属于计算机视觉和自然语言处理的交叉研究领域,它需要对不同模态输入的图像和文本进行处理,给出一个符合人类思维的合理答案。视觉问答在盲人群体、图像检索、交通出行、媒体娱乐等方面有广泛应用,因此有重要的研究价值。在视觉问答早期的研究方法中问题和图像之间的交互大多很简单,忽略了每个问题单词和每个图像区域之间的密集交互,这不足以对图像和问题之间潜在的复杂关系进行深度建模;此外,大多数方法还忽略了同种模态之间的相互关系。针对以上问题,本文基于深度学习理论基础,提出了两种基于深度注意力堆叠的多模态视觉问答算法,并在最后实现了一个视觉问答系统。本文主要从以下几个方面对视觉问答任务进行研究:(1)针对模态内和模态间存在信息交互不充分的问题,本文提出了一种基于深度注意力堆叠的视觉问答算法DAS。DAS模型先使用特征提取模块初步提取问题和图像特征,再使用多模态交互模块密切交互问题和图像特征,最后使用输出分类模块预测答案。在公开的VQA v2.0数据集上进行一系列对比实验,验证了DAS模型能够有效提升精度。(2)针对DAS模型存在随着迭代次数增加,精度大幅度下降的问题,本文提出了一种基于深度注意力堆叠的多分支视觉问答算法MDAS。MDAS模型采用三条由单元模型堆叠而成的支路对问题和图像特征进行充分交互,通过多路输出模块以及多路损失函数得到预测答案。在公开的VQA v2.0数据集上进行一系列对比实验,验证了MDAS模型能够有效提升性能,尤其是可以提高Number类问题的精度。(3)本文设计了一个视觉问答系统,将提出的MDAS视觉问答算法集成到该系统中,并对系统的功能进行了演示。
其他文献
慢性肾脏病(Chronic kidney disease,CKD)是对人类健康造成巨大威胁的慢性疾病之一,已成为人们十分关注的公共卫生问题。中药茯苓(Poria cocos)具有利水渗湿、健脾宁心等功效,现在临床上广泛用于治疗CKD。研究表明,肠道菌群失调加重肾损伤,肠道菌群作为肠源性尿毒素的主要来源在CKD的发展过程中发挥着重要的作用,肠道菌群产生的代谢产物通过破坏肠道上皮屏障进入血液循环,产生
学位
远志Polygala tenuifolia Willd.的地下(如根皮和木心)和地上部位(如芦头、茎叶)的功效和成分均有明显差异。远志根部以皂苷和糖酯类成分为主,地上远志苗以黄酮类成分为主。因此,本文以栽培远志为对象,检测不同部位不同时期化学成分、抗氧化酶/关键酶及相关酶基因的分布和动态变化,分析成分含量、酶活性及基因表达之间的关系,为远志非药用部位开发及有效成分定向调控提供依据。主要研究结果如下
学位
天然产物是药物发现的重要基石,是创新药物研发的“先导”化合物,是中药预防和疾病治疗的物质基础。纵观中医和中药的发展历史,天然产物在治疗人类疾病方面发挥着重要作用。中医中药的延续和发展离不开推陈出新,基于天然产物的结构修饰是研发新药物的重要途径之一。本文选用天然产物吲哚醌为先导化合物,拟通过结构修饰提高吲哚醌的生物活性以及设计、合成新型化合物。对吲哚醌C2、C3位同时进行修饰。以取代吲哚醌类和二胺类
学位
随着物联网的蓬勃发展,无线传感器网络作为物联网的核心内容之一,迅速成为了当下的研究热点。目前,物联网中大多数传感器节点仍为电池供电,电量用尽就会导致会节点死亡,人工更换电池不易且成本高。因此,能量的持续供给成为了制约物联网发展的紧迫问题。由于物联网传感器节点所需功耗较低,因而可以采用环境能量收集技术来为无线传感器节点高效地解决供电问题。针对单一能量收集系统输出功率较低的问题,提出了混合能量收集的方
学位
本论文围绕脂滴的可视化荧光检测开展了一系列工作。脂滴在能量存储和脂质代谢过程中发挥着关键作用,脂滴功能障碍及其相关机制与多种病理状况有关。此外,由于癌细胞快速增殖过程需要大量的能量,在一系列不同的癌症中都观察到脂滴的积累。尽管人们认识到脂滴的重要性以及脂滴与代谢性疾病和癌症之间的密切联系,但许多相关的问题仍未得到解答。因此,构建荧光探针,研究脂滴的生成、分布、代谢以及与其他细胞器相互作用等生理过程
学位
中华文化历史悠长,随着时代的更迭遗留下无数文化瑰宝。随着时间的推移,环境的变化,文物正慢慢消亡。将文物数字化可以使其永久保存,而建立出具有真实感的文物三维模型是历经时代消磨而受损的文物进行数字化重建的重要基础。要想完整地还原文物本来面貌,得到具有真实感的文物数字模型,精细的三维建模与真实感渲染都是必不可少的。目前在文物三维建模研究中仍然存在文物点云周围环境噪点多、稠密点云数据量大影响重建效率以及重
学位
随着大规模物联网(Internet of Things,IOT)和人工智能的飞速发展,未来的移动通信网络应满足高数据传输速率、低时延、海量连接等要求,并可借助无人机(Unmanned Aerial Vehicles,UAV)、卫星等通讯设备建立“空-天-地”一体化通信网络,实现全球覆盖的无线连接服务。其中,无人机通信通过利用无人机机动性高、部署灵活的优点,可实现以视距传输(Line of Sigh
学位
基于声呐图像的目标检测是水下感知领域的重要组成部分,在水声学研究中应用广泛。然而,水下环境复杂,声呐成像实验成本较高,声学图像的数量和质量难以得到保障。国际上用于研究的声呐数据集公开程度有限,基于监督学习的算法性能在很大程度上又取决于所采集数据的数量和质量,这些问题限制了水下目标检测任务的完成,因此进一步扩充声呐图像数据集成为该领域亟待解决的重要问题之一。现有的研究多基于旋转平移等操作,与声呐成像
学位
业余无线电在社会生活和灾难应急响应等领域均发挥着重要作用,无线电爱好者人数的不断增加,使得业余无线电事业的健康发展和管理都面临着重要挑战。现有的管理方法是通过考试获取操作证书,注册获取电台执照,这种方法无法对电台所发射的信号进行身份认证,难于跟踪监管。本文主要开展FM电台射频信号指纹的提取方法以及基于射频指纹的电台跟踪监管方法研究。本文首先依据FM电台组成原理,分析各部件产生的偏差对射频信号的影响
学位
近年来,随着航天事业的飞速发展,卫星的应用领域也越来越广泛。基于卫星发射成本高、在轨工作时间长和在轨维修难度高等问题,在卫星发射前有必要对舱内通信设备完成在地的全方位检测。本文详细分析了某型号卫星舱内通信的功能需求,提出并论证了数据通信地面检测设备的设计方案的可行性,完成了设备的功能电路设计、可编程逻辑门阵列(Field Programmable Gate Array,FPGA)逻辑设计以及数字信
学位