基于图神经网络和注意力机制的视觉问答模型研究

被引量 : 0次 | 上传用户:hnzzzc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,海量的多媒体数据迅速增长并累积,形式上多元异构、语义上相互关联的图像、文本、视频、音频等不同模态之间的多模态学习任务受到广泛的关注。作为一种多模态学习任务,旨在让计算机根据图像内容回答问题的视觉问答(Visual Question Answering,VQA)是人工智能领域中一个极具吸引力的研究方向。它具有很高的实际应用价值,可以被用于监控、聊天机器人对话等场景中。因此,研究视觉问答任务具有一定的意义。本文基于图神经网络和注意力机制研究视觉问答任务中的多模态交互方法,希望通过探索视觉和语言之间的交互,提高计算机根据图像内容回答问题的能力。具体工作如下:(1)针对传统的视觉注意力模型BUTD(Bottom-Up and Top-Down)缺乏视觉对象间关系的推理能力,未考虑图像和问题文本之间的密集语义交互等问题,提出一种基于空间图卷积网络和协同注意力网络的视觉问答模型。该模型以二元关系推理作为图学习模块,学习和问题相关的图结构表示;将视觉节点特征通过空间图卷积层进行特征更新;然后将聚合更新了邻居信息的视觉节点特征以及问题词特征送入协同注意力模块,学习图像和问题之间的密集语义交互;最后将学习到的问题词特征和视觉特征输入多模态融合和答案预测模块,该模块使用统计学中的logistic函数在3129个候选答案上做分类。(2)以第一种模型为基础,进一步提出了一种基于门控图卷积网络和双向引导协同注意力网络的改进模型,用于探索图像中的显式空间关系以及图像与问题之间对称的语义交互对模型性能的影响。该模型基于图像中视觉对象之间的相对空间位置建立空间关系图,然后通过门控图卷积网络动态控制不同邻居对节点的贡献程度,再在双向引导协同注意力模块中对称地学习语义交互,最后通过多模态融合预测答案。(3)将提出的两种模型在VQA v2.0数据集上进行训练和评估。实验结果表明,第一种模型在test-std测试集上的总体准确率为68.12%,比传统的视觉注意力模型BUTD提高了2.45%。第二种模型在test-std测试集的总体准确率达到了71.04%,与第一种模型相比,推理能力得到了进一步提高。
其他文献
报纸
大遗址是彰显人类几千年历史演进和文化续存中的鲜活证据,更是民族记忆的集中呈现,具有不可估量的价值。“十一五”至“十四五”时期,大遗址的专项保护工作重点由“解决保护问题”逐渐走向“更关注展示利用”,提升大遗址展示利用水平成为现阶段大遗址保护利用的一项主要任务。做好大遗址的价值诠释与展示利用工作,推动其创造性转化、创新性发展,对我们追根溯源,寻求文化认同,增强中华民族自豪感和凝聚力、筑牢民族共同意识有
学位
目的 开发适用于评价婴幼儿照护人回应性照护水平的量表,并检验其信效度。方法 以依恋理论为基础,参考国际上回应性照护评估量表,初步构建量表条目,2020年3—5月对2 759名0~4岁儿童家长进行问卷调查,进一步检验量表信效度。采用探索性因子分析与验证性因子分析检验量表的结构效度,长处与困难问卷(SDQ)被用于检测量表的同时效度。结果 探索性因子分析显示婴幼儿回应性照护评价量表包含“促进认知与情感发
期刊
<正>2018年,世界卫生组织和联合国儿童基金会发布了养育照护框架,阐述了养育照护的核心内容为健康、营养、回应性照护、安全与保障以及早期学习。[1]高质量的养育照护是促进儿童早期发展最直接有效的方法。回应性照护主要指照护者能够敏锐地察觉婴幼儿的需求和兴趣,并做出及时、正确、恰当的回应,满足其需求,促进婴幼儿早期发展。[2]回应性照护是贯穿于其他四个要素的最重要因素。
期刊
评估有助于促进托育机构的高质量发展,为此需要研发适宜的托育机构照护质量评估工具。本研究借助ucinet 6.0软件对国外14个有较大影响的托育机构照护质量评估工具进行分析,发现它们都强调通过班级观察的方式获取评估所需信息,主要涉及物理空间和材料、回应性照护、一日生活照料、活动与早期学习支持四大维度。在具体实施和应用方面,这些评估工具通常关注婴幼儿可获得的平均教育质量,要求评估者深入班级,选取代表性
期刊
木质纤维素原料是一种丰富的可再生资源,是生物燃料和其他高值化生物基产品的主要来源。而在木质纤维素碱性预处理及后续水解过程中产生的羟基肉桂酸类化合物会严重影响木质纤维素的生物转化,降低可发酵性糖的转化率并影响乙醇产量。阿魏酸和对香豆酸是两种毒性最强的羟基肉桂酸化合物,为了探究它们对纤维素水解及酵母发酵的抑制机制,本论文做了如下研究并取得了初步的结果:1.阿魏酸和对香豆酸对微晶纤维素水解的影响将不同浓
学位
牡丹皮是临床常用的清热凉血药,主要含有单萜及其苷类、酚及酚苷类、三萜及其苷类、黄酮类、挥发油等化学成分,具有清热凉血、活血化瘀、抗氧化、保护肝肾、抗癌等多种药理作用。该文总结了牡丹皮的化学成分和药理作用,从质量传递与溯源、化学成分特有性、配伍环境等多个方面进行分析,初步确定丹皮酚、芍药苷、氧化芍药苷、没食子酸、苯甲酰芍药苷、1,2,3,4,6-五没食子酰葡萄糖等成分可能为牡丹皮的质量标志物,为牡丹
期刊
为研究最优权组合预测模型在季冻区公路软基沉降预测中的适用性,选取某一级公路的典型断面,采用分层沉降仪进行沉降监测,通过沉降管上磁环位置的移动来反映路基沉降变化。根据一年的沉降实测资料,对原始非线性数据进行三次样条插值处理,基于最优权权重法将灰色GM(1,1)及二次曲线模型进行组合,对地基的远期沉降进行预测,将预测结果与实测资料进行对比,探究该模型的适用性,同时基于季冻区气候特点,选取适合高寒地区路
期刊
移动机器人能够替代人类进行复杂、重复性的作业,减少人类的体力劳动,其广泛应用在各个领域。移动机器人的关键技术就是实现移动机器人的路径规划。本文研究了应对静态和动态环境下的机器人自主路径规划策略,该研究对于提高机器人面对复杂环境下的路径规划效率有重要的意义。具体研究内容如下:首先,针对强化学习方法在复杂环境下进行路径规划时会产生“维数爆炸”的问题,提出基于深度强化学习的路径规划算法,通过建立端到端的
学位
<正>《普通高中语文课程标准(2017年版)》对高中语文资源开发和利用提出了要求,但是在实际教学过程中,存在着影视资源选择和使用不当的情况,因此,要想将影视资源更好地运用于高中语文课堂教学,还有很长的路要走。本文简述影视资源的内涵,分析影视资源运用于高中语文课堂教学的现实意义和目前存在的问题,并针对存在的问题提出相应的对策,以供参考。一、影视资源的内涵影视资源英文直接翻译是电影资源,而中文中的影视
期刊