对象的视觉关系检测算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:houhao88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉关系作为图像中孤立对象间的纽带,反映了对象之间的交互类型,是图像理解的一项重要研究。近些年,图像分类和目标检测快速发展,研究人员逐渐开始探索更高级的语义推理任务。视觉关系检测作为场景理解的中间级任务,能够连接计算机视觉和自然语言,促进一系列高级计算机视觉任务,例如图像字幕生成、视觉图像问答和图像检索等。视觉关系检测任务是检测和定位图像中的对象,同时预测它们之间的关系。通常通过主语-谓语-宾语的三元组表示一组视觉关系,用于描述图像的局部区域语义,例如“人骑车(personride bike)”。但是,由于每种关系类型涉及不同的对象组合,并且不同的对象组合表现出不同的交互类型,从而导致仅基于视觉特征的关系检测成为一项艰巨的任务。现阶段关系检测方法大多数都采用对象检测的流程,通过提取对象组合区域特征来生成视觉短语语义特征,然后将视觉关系当作分类问题进行处理。然而,这种矩形区域特征提取方式假设背景环境对预测关系类型总是有用的,导致模型在一些复杂环境下无法提取重要信息。为此,本文设计并实现了基于注意力机制的视觉关系检测算法。另外,本文将图方法应用于视觉关系检测任务,通过对图像中不同对象区域建立相关性联系,设计并实现了一种基于图神经网络检测视觉关系的通用网络框架。本文的主要工作和创新点如下:(1)基于注意力机制的视觉关系检测算法实现研究。本文介绍了一种新的视觉关系检测网络模型,该模型以目标检测算法为基础,采用了对象语义推理和注意力机制来提升视觉关系检测的性能。为了克服视觉外观多样性对实际检测的影响,该算法将语义推理模块和视觉特征结合并相互补充。本文设计了两种不同的注意力机制,分别用于对象特征提炼和短语特征提炼。为了获得每个对象的上下文信息,对象特征细化模块通过查询图像中的其他对象来增强每个对象的特征表示。另外提出了短语特征优化模块,使模型自动学习并关注相关图像区域,从而提升视觉关系检测任务的性能。(2)基于图神经网络的视觉关系检测算法实现研究。本文提出将图方法应用于视觉关系组成的场景图分析任务中。为了获得图像的结构化表示,在本次研究工作中,分别设计了外部知识指导和网络学习的方法构建关系图结构,有效减少了图像中对象之间平方数量级的候选关系。图节点结合了视觉和语言信息,使用对象视觉特征和类别词向量嵌入进行表示。在图信息传播过程中加入了多头注意力机制,使得图神经网络能够选择性捕获节点的上下文信息。在视觉关系预测阶段,将短语视觉特征和图节点融合进行关系类型预测。最后,我们在Visual Genome关系数据集上验证本文提出的算法。与最新技术方法MOTIFNET相比,基于注意力机制的视觉关系检测算法取得了竞争性结果。它在场景分类任务上相较于MOTIFNET提高了 3.1%。对比本文设定的基线方法,该算法的平均相对增益提高了 9.6%。基于图神经网络的视觉关系检测算法为未来视觉关系检测任务提出了一个更加通用且有效的网络框架。
其他文献
随着我国市场经济体制改革的不断深入,中小企业在推动经济发展方面的作用更加明显,并逐步转变成我国经济发展的重要组成部分,并对我国的经济的腾飞做出了突出贡献,成为国民经济发展的主力军。然而近年来,中小企业在发展的过程中面临越来越多的问题,尤其是融资难问题尤为突出,严重的已经使得中小型企业没有足够的资金支持其发展,也无法满足企业未来的发展需求和扩大生产规模的需求。YD公司作为一家中小型企业随着生产规模的
随着云计算、高分辨率视频等新型网络应用的迅速发展,网络信息流量呈现爆炸式增长,这对光网络的传输能力来说是一个巨大的挑战。弹性光网络凭借其更细粒度的频谱划分,成为减轻光网络流量压力的一种有效方式,极大地提高了频谱利用率。同时为了解决网络的“僵化”问题,网络虚拟化应运而生。通过抽象底层物理网络资源,网络虚拟化可支持在不同用户之间构造虚拟光网络,不同的虚拟光网络可以共享底层物理资源,提高了网络的灵活性和
适型分数阶导数是2014年新出的定义,虽然人们对其性质的研究上取得了一些成果,但还有很多方面的研究并不完善,尚有大量的基础性的问题需要我们去研究.本文利用障碍带技巧考虑
佐藤晃一是日本近现代在日本与世界上最成功的平面设计师之一,对日本本民族文化应用的十分纯熟,并且表现形式独树一帜,在画面并不单一的情况下依然能被贴上“留白”“阴翳”等标签,佐藤晃一能够完美的将对比色统一于同一画面,对图形与视觉形象的精简与提炼具有独到的表现形式,具有值得深究的价值。在佐藤晃一的招贴设计中能够看到非常明显的禅宗思想的痕迹,在设计中经常能够表达出一种阴翳,静远的视觉效果,这种视觉效果能够
本文第一次对磷石膏应用于路基和路面基层进行系统地研究.在试验研究基础上,得出以下结论:磷石膏是优良的路基填料,也可与二灰一起用作软基处理掺加料,又是良好的半刚性基层
苏云金芽胞杆菌(Bacillus thuringiensis)cry1Ah1基因由本实验室克隆获得,具有我国自主知识产权,其表达的蛋白对亚洲玉米螟等鳞翅目害虫具有很好的杀虫活性,已用于转基因抗虫作物的研制,并获得具有较好抗虫性状的转基因品种。cry1Ab/c基因是由cry1A(b)和cry1A(c)融合而成的杂合Bt基因,该杂合基因已经成功导入水稻,开发出优良转基因水稻新品种TT51-1。随着转基
纳米材料在医学领域应用的兴起,在一定程度上可以有效避免传统癌症治疗手段的弊端,无机纳米材料具有一系列独特物理和化学性质,在生物医学成像与肿瘤治疗领域有着独特的潜在应用价值。普鲁士蓝是一种染料类物质,由于其高的光热转化率、低生物毒性、易于合成、绿色环保、结构可控性较强的优良特性,引起了生物医用领域的关注。硫化铋作为一种过渡金属硫属化合物,具有低毒性,高光热转化效率的特性。本文选取了硫化铋和普鲁士蓝两
数据链本质上来说是一个有各种传输信息组成的数据网络,接入到这个网络中的数据终端在数据链信息共享的能力下,可以与其他同网终端进行信息共享和信息互补。但由于通信技术水平和具体应用领域的差异,目前还不存在一种高效数据链能够取代其他数据链可以完全满足所有应用的需求。多协议终端能够进行两个或两个以上数据链的连接,实现多个数据链在互不干扰独立运转的同时,能够实现信息共享并进行数据链路消息的信息转换。本文研究设
摩擦磨损是结构部件损伤的主要原因之一,由磨损失效所造成的经济损失也非常大,开发高性能耐磨材料是解决摩擦损伤问题的根本途径。高熵合金主元元素多,具有优异的性能。本文主要研究在AlFeCoNiC_x和AlFeCoNiC_xTi_y高熵合金中原位生成石墨和TiC相,利用XRD、SEM、EDS、EBSD等方法表征分析了石墨相与TiC相的分布。采用高温球-盘式摩擦磨损试验机测试分析了AlFeCoNiC_x和
伴随着市场经济的不断发展,我国的单位制度逐渐改革,社区开始承接过去单位体制的部份职能。公众缺乏来自社会组织的关怀和支持,在这种情况下,政府把部分社会事务交由社工来做