结合特征融合和GAN的场景图生成及推理技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:sbt200905
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对视觉场景的完全理解被视为计算机视觉领域的“圣杯”,为了实现对视觉场景的完全理解,以更好的完成视觉问答、图像字幕等较为高级的计算机视觉任务,学者们提出了场景图生成问题。场景图是一种图形数据结构,负责描述图像中的对象与对象之间的关系,场景图通过节点表示场景中的对象,而连接节点的边则表示场景中各种对象之间的关系。通过场景图,人们可以获得图像中场景的语义表示,是进一步完成场景理解的基础。囿于现有场景图生成数据集中关系存在的长尾特性,以及模型对目标信息的不准确的推测,虽然场景图生成研究的数量激增,如何挖掘数据集中尾部关系,并且有效的预测关系对对应的目标信息仍然是一项具有挑战性的任务。本文首先提出了一种结合视觉关系特征融合的场景图生成方法,它是基于现有的基于上下文学习的场景图生成方法的改进框架,主要包含视觉关系特征建模模块、关系与目标上下文特征提取模块以及以视觉塔克分解(VTucker)为核心的特征融合模块等模块。该模型的基本思想是使用多模态特征融合模型作为整体的决策代理,通过Tucker分解来逼近完整的双线性模型,从而缓解现有模型存在的关系推理偏倚问题。为了验证模型的有效性,本文在VG150数据集中进行了仿真实验,实验结果显示,结合VTucker的现有上下文方法在场景图生成的谓词分类与场景图分类子任务中的平均召回率与无图约束的平均召回率指标超越了基线方法;同时,关系的逐类对比、消融实验以及场景图可视化实验结果表明,视觉塔克分解模型具有对关系推理的去偏倚能力。虽然VTucker模型具有良好的去偏倚能力,但在视觉关系建模模块中,其主要使用“关系”标签进行损失计算,因此该方法对于关系学习的准确度有较大的提升,但是其对目标信息的推理与学习能力有限。为了更好的提升场景图生成网络对目标信息的推理能力,本文提出了上下文生成对抗网络(Context-GAN)。该网络在训练过程中使用基于生成对抗网络的正则器结合经目标上下文推理后的目标信息对图像进行重建,该正则器使得网络对错误的主客体种类预测施以更强的惩罚,以提升网络对于关系对中主客体目标信息的推理能力,从而提升场景图生成模型在与目标信息推理相关的场景图检测与场景图分类任务的推理能力。本文主要在作者自制的数据集视觉实验板(V_E_Board)上进行了相关实验,该数据集中存在着目标种类的长尾分布,因此需要一定的推理分析才能提供更为准确的场景图。实验结果表明,对V_E_Board数据集而言,Context-GAN相比于基线方法具有更强的对关系对的目标信息推理能力,同时对数据集具备一定的鲁棒性。
其他文献
<正>黄芪为多年生豆科类草本生长的植物,味甘且性温,最早出现于医学典籍《神农本草经》,因其具有养血滋津、敛疮新生、疏通散痹、固表益气等效用,可在调节免疫、抗氧化、保肝、抗炎等中发挥多重药理学作用[1]。在我国,黄芪用途广泛,不仅能够参与心血管、呼吸、内分泌等疾病的治疗且效果良好,同时在保护心肌细胞、调节血压等方面也取得了一定的进展[2]。黄芪不仅包含黄酮、皂苷、多糖、微量元素以及其他有机物等化学成
期刊
报纸
报纸
旋转机械振动的主要因素是转子在运转中产生的不平衡故障,即使微小的不平衡对于高速旋转的精密转子易导致剧烈振动,甚至损坏设备。若采用传统的手工钻孔、打磨的方式进行动平衡,精密转子的不平衡矢量很难被精确消除,为有效实现高精度转子的动平衡要求,提出了采用非接触、精度高的激光烧蚀对精密转子进行动平衡的校正技术,通过建立和仿真激光质量烧蚀模型,提出激光同步时序控制策略,搭建转子动平衡平台并由实验验证激光不平衡
学位
石英晶体谐振器是用于提供频率标准的谐振频率控制器件。作为现代电子通信系统中的“心脏”,伴随着航空航天、军工国防、机械化工等领域中的电子化和信息化对频率基准源的要求不断提升,对石英晶体谐振器的各项参数要求也越来越高,这也对它的基础研究提出了更高的要求。本文通过ANSYS三维有限元仿真,分别研究了不同条件下晶体谐振器的振动模态和频率变化。论文的主要贡献如下:1.建立了AT切圆形晶体谐振器的有限元仿真模
学位
近年来,分布式优化问题在编队控制、智能电网、传感器网络以及分布式协同定位等诸多领域有着广泛的应用,因此,受到了学者们的极大关注。本文从实际应用的角度出发,利用代数图论、矩阵论、凸分析理论以及Lyapunov稳定性理论,研究了预设时间下的分布式优化问题。首先,在智能体状态不受约束的情况下,从两种不同的角度出发,分别研究了预设时间下的分布式优化问题和纳什均衡点求解问题。其次,在智能体状态受约束的情况下
学位
在计算机信息技术快速普及到社会生活各方面的过程中,信息安全技术作为信息保护技术,受到人们的广泛关注。其中,现代密码学作为一门基于数学理论的严谨的信息安全技术,显得尤为重要。分组密码学是现代密码学中最基础的密码学原语之一,早已成为众多信息安全系统的核心组件之一,确保着通讯系统的信息不被恶意用户查看和保护设备中的数据不被随意获取等。随着信息技术的应用环境变得多样化,不同的使用场景开始对分组密码算法提出
学位
自动制造系统依赖于计算机控制系统的部署,自动处理机械作业和生产任务的调度,极大地推动了我国制造业的发展。在实际制造场景中,一个大型自动制造系统通常包含大量的数字化控制子系统,并且子系统之间交互并竞争有限的共享资源。由于各种原因,资源故障在自动制造生产过程中是一种十分常见的现象,对自动制造系统进行稳健性分析和控制,以确保其在任意资源失效的情况下仍然能够持续生产而不发生中断是当今亟待解决的现实问题。本
学位
伴随着芯片尺寸的缩小和功耗密度的增加,其发热问题亟待解决。如何通过热设计保证电子芯片的可靠运行,成为了一个不可忽视的要点。因此本文设计了一种交错双P型微通道换热器,并通过数值计算和实验研究的方法分析了换热器的换热性能和机械性能。具体研究工作如下:首先,提出了三种不同结构的散热器,即传统直通道设计、增强设计和交错双P型设计,并建立了相应的数值仿真模型,将三种换热器的换热性能进行对比研究。发现,在传统
学位
文章基于城镇化大背景,以贵州黔南都匀毛尖镇民族杂居村寨为研究个案,通过田野调查,对都匀毛尖镇民族杂居区少数民族语言使用现状、语言兼用及转用情况、语言态度等的定量、定性分析,结论认为,黔南都匀毛尖镇民族杂居区语言关系呈多语和谐的样态。具体表现为:单一民族相对聚居的民族村寨,母语使用较为稳定;多民族散杂居的民族村寨,母语使用功能正在弱化或趋于濒危;全民普遍自觉地兼用汉语;不同语言功能互补;语言态度开放
期刊