基于视觉关系图和交叉注意力机制的视觉问答算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:chi421
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉问答已成为多模态学习中最重要的任务之一,现有方法主要依靠提取图像和问题特征来通过线性多模态融合或注意机制学习它们的联合特征嵌入。如何提高模型对文本和图像信息的表达能力,如何消除视觉表示和语义表示之间的语义鸿沟,以及如何解决因过度依赖问题和答案之间的表面相关性,而忽略图像信息的语言先验问题成为视觉问答任务的热点问题。针对图像编码表达能力不足的问题,定义两种关系图描述图像对象之间的联系,提出基于关系图的双注意力视觉编码器(DualVA),使用图注意力网络和自注意力网络根据关系图进行模态内推理。不同于使用传统卷积网络暴力提取图像全局特征或直接使用孤立的目标区域特征作为图像编码,该方法使每个目标区域嵌入包含与它相关的上下文信息,提升由对象编码构成的图像编码的表达能力。最后在VQA v2.0数据集上进行消融实验,相比于直接使用孤立的目标区域作为图像编码的BUTD,和使用堆叠自注意力视觉编码的MCAN,使用DualVA准确率分别提升3.3%和0.8%左右,实验表明DualVA编码器具有更强的特征表达能力。针对消除模态间语义鸿沟的问题,提出基于多模态交叉注意力的混合编码器,通过交叉注意力混合编码使不同模态空间的语言表示和视觉表示在同一空间中对齐,实现模态间语义一致的信息交互。同时受Bert启发,设计两个交叉模态的预训练任务,帮助建立模态间的映射关系。通过消融实验证明,经过对齐后再融合生成答案的方法效果优于其他多模态融合方法。除此之外,还通过对注意力模块学习得到的代表相关性的矩阵进行可视化,验证了通过交叉注意力计算语言和视觉之间可以相互映射。针对语言先验性问题,提出基于双目标的答案生成模块,除了传统的分类目标外,提出一个新的训练目标,即在答案投影空间中利用融合生成的答案嵌入和真实答案嵌入的投影进行噪声对比估计,以缩小生成答案与真实答案之间的语义差距,使生成的答案中嵌入更多的语义信息。最后在VQA v2和VQA CP v2视觉问答数据集上对整体模型进行测试,准确率分别达到72.47%和51.32%,高于部分代表性SOTA模型。
其他文献
本文全面总结了2021年我国绿色食品、有机农产品和农产品地理标志工作取得的成效,分析了当前面临的新形势、肩负的新任务,并从双控双提、推广应用、品牌宣传、信息化平台和队伍建设等方面分析了2022年我国绿色食品、有机农产品和农产品地理标志的重点工作。
期刊
目的:观察消瘀定痛散外敷治疗膝关节骨性关节病合并软骨下骨髓水肿的临床疗效。方法:50例膝关节骨性关节病合并软骨下骨髓水肿患者随机分为观察组和对照组各25例。观察组给予消瘀定痛散外敷,对照组给予氟比洛芬凝胶贴膏。两组均治疗4周,治疗后比较两组患者临床疗效、视觉模拟量表(visual analogue scale, VAS)评分、西安大略和麦克马斯特大学骨关节炎指数(western ontario a
期刊
相干反斯托克斯拉曼散射(Coherent Anti-Stokes Raman Scattering,CARS)显微成像技术,是一种基于拉曼散射的新兴光学成像技术。CARS具有独特的非标记特性及化学分析能力,比自发拉曼显微成像具有更快的成像速度。它的出现为振动光谱显微成像在生命科学研究及临床诊断中的应用开启了大门。宽带相干反斯托克斯拉曼散射(Broadband Coherent Anti-Stoke
学位
心率变异性(Heart Rate Variability,HRV)是指逐次心跳间隔随时间变化的规律。HRV受大脑高级中枢、交感神经系统和副交感神经系统调控,其水平与心脏健康、自主神经系统调节能力、认知负荷和情绪状态等因素相关。在实际应用中,HRV测量被广泛应用于疾病诊断和心理/认知负荷评估(如疲劳驾驶等)。由心电图(Electrocardiography,ECG)得到的RR间隔(RR Interv
学位
<正>掌握一定的史学方法在历史学习中有着重要的作用,是提高学生史学素养不可或缺的一步。但在中学阶段的历史教学中,没有这方面专门的教材,大多是教师在分析此类试题时就事论事,很多是从理论到理论,乏味又零碎。笔者选择了"光绪之死"这一学生感兴趣的话题,以"叙事+分析"的方式上了一节史学方法专题课,收到了较好的效果。
期刊
图作为一种数据结构,广泛存在于实际应用中,例如道路交通图,社交网络图,生物网络图等。许多现实中的问题可以抽象为图中的问题,而最宽路径查询问题就是图中的一个基本问题。传统的查询算法由于时间复杂度高,不能满足大图上的密集型查询需求。为了支持大图上最宽路径的快速查询,最新的工作中提出了一种基于静态两跳索引的最宽路径索引算法(Pruned Widest Path labeling,PWPL)。但现实世界的
学位
病理样本的显微成像和病理诊断是不可或缺的临床检测手段。基于切片数字化成像、传输和分析的数字病理方法提高了病理医生的工作效率。但是目前的切片数字化成像通常使用基于传统显微镜物镜和显微成像系统的大型化数字扫描仪,切片数字化通常集中于医院的病理科室或检验中心。随着成像器件和手机性能的进步,研究者们也尝试以手机为成像平台,外加一个低成本显微镜或显微镜头的方式,实现更为低廉和小型化的显微成像装置,以期能在基
学位
文章通过对双柏白竹山自然保护区的资源调查,掌握该保护区的植物资源、动物资源和景观资源现状,评价该保护区的保护与科学价值,分析其在资源保护方面存在的问题,并提出保护管理建议,可为保护区资源保护管理和可持续利用提供参考。
期刊
随着大数据应用的发展,流连接系统被广泛的用于从两个数据流之中发掘有价值的信息。一个高效的流连接系统需要满足可扩展、高性能和连接完整性三个方面的需求,而现有的流连接系统在设计时重点考虑可扩展性和高性能。系统将所有的处理单元划分成两部分并组织成二部图的形式。每部分处理单元负责存储一条流(R流或S流)的元组。新元组到达时,系统将其随机地划分到负责其所属流的某个处理单元中存储,并广播到另一侧所有的处理单元
学位
联邦学习能解决集中数据训练模型所面临的数据孤岛和数据隐私的问题。但由于联邦学习需要联合不可信的客户端来训练模型,导致它很容易受到后门攻击,即攻击者可以通过控制部分客户端发送恶意含后门的模型,让联邦学习训练的模型能将攻击者精心制作的输入分类为攻击者指定的类别,并在预测干净的输入时表现正常,从而给联邦学习的应用带来难以预料的安全风险。为了解决上述问题,首先,考虑到神经网络的过参数化使得神经网络有额外的
学位