基于多模态特征交互的视觉问答研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:gexuefeng1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉问答是计算机视觉与自然语言处理交叉研究的热点任务之一,可以应用于机器人、无人驾驶等多个领域。针对现有大多视觉问答模型仅能稳定回答简单问题的情况,论文从图像与文本的多模态特征交互出发,展开对回答复杂问题的研究,并在VQA2.0数据集上进行方法验证。主要研究工作如下:(1)构建具有关系计算模块的视觉问答模型,解决因关系信息缺乏难以回答目标数量统计类的复杂问题。该模型基于自注意力结构计算特征关系权重以突出具有关系的特征。在数据集中的消融实验、对比实验和可视化实验证明关系信息的有效性。模型从特征交互中获得关系信息后能在目标数量统计类问题中取得更高的准确率。(2)构建具有模态间特征交互增强模块的视觉问答模型,解决模态间局部细粒度关系信息不足而不能准确回答图像中目标间关系的复杂问题。该模型通过建立多层迭代的特征交互增强模块来提高对多模态特征中局部信息的理解与运用。在数据集中的消融实验、对比试验和可视化实验中证明了该模型在多层迭代的过程中能够更有效地找到图像中的关键目标并以此来得出问题的正确答案。(3)构建具有全局特征引导的关系信息增强模块的视觉问答模型,解决缺失全局信息而不能有效回答针对背景的复杂问题。该模型在全局特征的堆叠自注意力层挖掘单模态内特征关系,在局部特征的堆叠协同注意力层挖掘多模态间的特征关系。在数据集中的消融实验、对比实验和可视化结果证明模型引入全局特征后不仅对背景与目标的理解加强,在其他类型问题中准确度也取得了提升。总之,通过特征关系计算、特征交互增强以及引入全局特征,模型获得特征间关系、局部细粒度关系和背景信息,改善了对复杂问题的回答准确度。
其他文献
“学习情境”是指学习时间、地点、背景、内容、师生关系、资源条件等构成的关系错综的场域或环境。适宜的学习情境,应满足真实的生活需求,符合学生真实的情况,促进真实学习的发生,并接受现实条件的制约。当下,某些过于生活事务化的情境创设,在一定程度上有违新课程标准的本意。本文认为,应当革除实践中学非所需、学非所用之处与非真实学习的沉疴,以完善教学。
期刊
目的探讨通窍鼻炎颗粒联合曲安奈德鼻喷雾剂治疗变应性鼻炎患儿的效果及对其白介素(interleukin,IL)水平的影响。方法将69例变应性鼻炎患儿随机分为对照组(36例)及实验组(33例)。对照组采用曲安奈德鼻喷雾剂治疗,实验组采用通窍鼻炎颗粒联合曲安奈德鼻喷雾剂治疗,比较两组治疗效果及IL的表达水平,观察不良反应。结果治疗后,实验组总有效率(93.94%)显著高于对照组(80.56%,P<0.0
期刊
随着信息通讯技术的发展,情感分析技术已成为信息科学领域的热点前沿之一。目前关于情感分析的研究在单模态领域已经较为成熟,但随着数据形式的增多,如何将多个模态数据中的情感进行融合处理成为现有研究需要着重考虑的问题。现有的多模态数据情感分析研究往往忽略了视频中每个话语片段的上下文语义之间的相互依赖和联系,分析准确度具有局限性。同时,在多模态数据融合的过程中,相关算法忽略了情感分类预测中各模态的重要程度存
学位
通过一次真实发生的断路器故障,阐述了弹簧机构断路器在分闸过程中出现分闸延迟情况的原因,结合变电站智能终端后台数据分析,判断该型断路器在操作后,机构动作的全部过程。同时也结合断路器的机械动作特性,分析和判断故障部件以及故障原因。查找原因是断路器线圈铁芯形式不合理,机构脱扣方式存在缺陷,造成断路器未能及时动作,同时在提出一种使用改进型分合闸线圈从而改善断路器分合闸稳定性的方法。
期刊
在市场经济蓬勃发展的背景下,预约合同具有争取交易机会,降低合同风险等多种功能,在当前的市场交易中适用广泛,是促进商品贸易发展的重要工具。它具有较强的诺成性,包含了双方当事人将来订立本约之合意;内容较为明确、具有相对确定性,这使得其与意向书、备忘录等不具有相应法律约束力的文件相区分;应与本约合同有所区别,是约定将来订立合同的合同,因而还具备暂时性、阶段性的合同属性。研究预约合同的违约责任,必须事先确
学位
随着人工智能技术的发展,音乐播放产品呈现出智能化的发展趋势,而市面上音乐播放产品质量参差不齐,体验感较差。当下正是体验经济时代,用户更加注重产品的情感体验和使用感受,对产品的功能性、美观性、情感性等方面都提出了更高要求。多模态交互的音乐播放产品能提升产品的体验感和价值感,通过场景化应用、智能化交互、音乐视觉化等多重维度提高人们的生活品质。本文采用文献研究和实际调研的方式,同时结合跨学科知识对音乐播
学位
采用地球化学测试分析方法对鄂西地区上二叠统大隆组碎屑岩进行了风化程度、物源和构造背景研究,结果表明:鄂西地区大隆组沉积岩富SiO2、Al2O3和Fe2O3,贫CaO,平均质量分数分别为72.18%、9.77%、2.96%与0.08%;矫正烧失量后, Fe2O3T+MgO(均值4.25%)、TiO2(均值0.44%)、Al2O3/SiO2(物质的量比值,均值0.16),最接近活动大陆边缘特征值.球粒
期刊
多模态神经机器翻译任务旨在理解输入端的语义,以端到端方式融合图像和文本两种模态信息,以此实现源语言到目标语言的翻译。传统多模态机器翻译,在将源语言翻译成目标语言时,借助图像中的重要特征信息优化翻译过程。通过观察发现,虽然图像中包含丰富信息,但是当图像特征与源语言描述不匹配时,对翻译会带来干扰和噪音。且之前多模态机器翻译系统的翻译结果尽管有着较好的可读性,但在表达力上,有着明显的欠缺,主要的不足为:
学位
背景与目的:肺癌是全球癌症相关发病率和死亡率的重要组成成分之一。与2009-2010年的诊断相比,2015-2016年非小细胞肺癌(non-small cell lung cancer,NSCLC)患者的2年生存率增加了8%,每一个诊断阶段的绝对生存率增加了5%-6%。研究发现,与其他类型的癌症患者相比,肺癌患者的心理痛苦明显更大。而心理痛苦是一种不愉快的情绪体验,它受多种因素的影响,包括心理因素
学位
随着去产能、去库存、去杠杆、降成本及补短板等供给侧结构性改革重点工作的推进,国内家电企业面临着优化产品结构、提升产品质量等更高要求。不规范的资本市场以及日益严格的银行信贷条件,使得融资贵融资难问题成为了限制企业发展的关键问题。为了解决企业发展中面临的资金短缺问题,缓解传统融资模式对企业发展的限制,部分家电企业利用其在行业中的竞争地位优势,超常规占用供应链上下游企业资金,以此实现自身规模扩张和实力增
学位