【摘 要】
:
近年来,深度学习技术在目标检测领域取得了显著的突破,并催生了许多视觉场景理解的任务。其中,场景图(物体表示节点,物体间的关系表示边)由于其强大的语义表示能力一直是计算机视觉领域的研究热点。与图像相比,场景图具有更加抽象的结构化的语义表征能力,具有处理其他视觉任务的潜力。它不仅可以为基础的识别任务提供上下文线索,而且还为解决高层次的视觉理解问题提供更有价值的替代方案,包括图像字幕,视觉问答,基于内容
论文部分内容阅读
近年来,深度学习技术在目标检测领域取得了显著的突破,并催生了许多视觉场景理解的任务。其中,场景图(物体表示节点,物体间的关系表示边)由于其强大的语义表示能力一直是计算机视觉领域的研究热点。与图像相比,场景图具有更加抽象的结构化的语义表征能力,具有处理其他视觉任务的潜力。它不仅可以为基础的识别任务提供上下文线索,而且还为解决高层次的视觉理解问题提供更有价值的替代方案,包括图像字幕,视觉问答,基于内容的图像检索和图像生成等。场景图生成是指将图像自动解析成一个结构化的语义场景图,目标是检测出图像中的物体及其视觉关系。视觉关系往往用三元组的形式来表示,即“主语-关系-宾语”。场景图生成可以看成两阶段的语义检索过程,首先使用目标检测算法生成物体节点,然后检测物体间的视觉关系得到边。现有的方法在预测关系的时候,使用两个物体的联合区域的特征作为关系特征,然后执行分类任务来预测关系。然而在一个给定的场景中,两个物体间是否存在关系,不仅与两个物体本身的形态以及相对空间位置有关,还取决于两个物体的类别;此外两个物体之间形成何种关系,不仅与场景的特定属性,如时间、地点等有关,甚至还与周边其他物体的特征有关。因此,本文提出了基于语义连通图的场景图生成算法,将关系检测过程分成关系建议和关系推理两步。以目标检测算法得到的候选对象为节点集合,构建一个全连接的图,然后使用物体的类别信息和相对空间关系计算物体之间的存在关系的概率,通过设置阈值来删除图中大量的无效的连接,得到稀疏的语义连通图。基于语义连通图上的连接关系,使用图神经网络对图节点的特征进行聚合,以融合物体的上下文信息。最后结合更新后的主语和宾语特征以及两个物体联合区域的特征构建关系特征,预测图中的每条边对应得关系类别。视觉关系具有偶然性,在不同的场景中,物体之间的形成的关系是不确定的,关系组合的种类繁多,其次,视觉关系又服从幂律分布,不同类型的关系三元组出现的概率差异很大,这就要求关系检测模型不仅能学习到关系的特征表示,还要学习关系的分布,因此,本文提出了基于概率图的场景图生成算法。以候选关系的主-客体对为基础构建一种概率图结构。用图节点的信号来编码数据集中关系的概率分布,使用图神经网络对图节点的信号做更新,同时使用语义信息监督学习。因此,不仅可以在概率图上学习到关系的分布状态,同时也能学习到关系三元组中物体和关系的语义共现概率。最后,我们通过实验在Visual Genome数据集上验证本文提出的两种算法的性能。与现有的方法相比,两种算法都取得了竞争性的结果。对比本文设定的基线方法都有明显的提升。
其他文献
选择性加氢反应广泛用于香料、香水、医药、颜料、染料和农用化学品生产等精细化工领域,含有可还原性基团的芳香胺作为精细化学品(如农药、染料、颜料和药品)和大宗化学品(如聚合物)的关键组成部分就是通过相应的硝基芳烃选择性加氢制备而成的。铂(Pt)基催化剂广泛应用于选择性加氢工业中,但由于Pt本身的电子结构和几何结构导致其在许多情况下很难区分竞争性官能团,从而导致对目标产物的选择性较低。因此,Pt基催化剂
利用卷积神经网络实现目标图像的风格化成为学术界与工业界共同关注的一个热点。相比传统的风格迁移算法基于卷积神经网络的风格迁移算法具有速度快与风格化效果好的优势。但该算法在风格化效果方面仍由不成熟之处,比如因为对笔触尺寸的控制不够灵活而导致生成的纹理笔触与原始风格图像相差甚远。针对这一问题已有大量研究,现有解决方法的算法原理主要分两种:基于控制网络感受野和基于控制粗糙至精细的图像细化过程,这两种算法分
离散时间多智能体系统(MASs)具有节约资源、减少成本、降低通讯时间等优势,在机器人、无线传感器、生物系统等领域有广泛应用,是众多学者的重要研究对象之一.迭代学习是研究一类周期或者可重复多智能体系统的有效方法,使系统达到精确跟踪.本文针对离散时间MASs,研究了带有独立拓扑的离散异质MASs的精确一致性控制问题.异质MASs是指智能体的动力学系统不同,比如:多智能体系统中有一阶、二阶混合动力学系统
以硅(Si)材料为基础的工业半导体取得了前所未有的进步,然而其较小的带隙无法满足半导体器件在高压、高频、高功率以及短波长发光和探测等方面的需求。贝塔-氧化镓(β-Ga2O3)作为一种新型超宽禁带(UWBG)半导体,凭借其4.9 e V的超宽禁带、8 MV/cm的高击穿场强和较高的电子饱和漂移速度等优势受到了越来越多的关注。近年来,国内外关于β-Ga2O3基场效应晶体管(FET)器件的报道层出不穷,
随着压电器件在高温环境中的广泛应用,同时具有高压电性能和高居里温度的压电陶瓷材料受到了极大的关注。本研究通过将具有较小容忍因子的铁电体Pb(In1/2Nb1/2)O3(PIN)与电学性能良好的Pb Hf O3-Pb Ti O3(PHT)铁电体固溶,构成一种新型三元压电陶瓷Pb(In,Nb)O3-Pb(Hf,Ti)O3(PIN-PHT),通过理论计算并结合三元相图预测准同型相界区域,提出能够实现性能
在未来几年内,煤炭在我国的能源体系中仍然处于主体能源地位。煤矿井下综掘工作面的自动化可以大幅提高生产效率。目前,我国井下综掘工作普遍以悬臂式掘进机单巷掘进为主,因此悬臂式掘进机位姿检测是综掘工作面自动化的基础和前提。只有获取稳定可靠的掘进机实时位姿,才能够在此基础上进行综掘工作面自动化、智能化改造工作。本文提出一种基于机器视觉和倾角传感器的悬臂式掘进机位姿检测方法,针对位姿参数求解、激光标靶参数优
核电已经成为我国现代能源体系中的重要组成部分,对国民经济发展和提升装备制造水平具有重大意义。近年来,随着“华龙一号”等标志性核电装备的发展与成熟,我国核电机组规模已经位居世界第二,核电自主技术发展已达到国际先进水平,然而,我国核电企业的决策数据存在多源异构等特点,难以保证决策数据的质量,导致数据融合、认知、分析、挖掘不充分,另一方面,通用决策工具和决策构件存在功能单一、不系统、不完备等问题,导致决
互联网大数据的技术发展为人们提供了在线购物、网络会议等多种线上服务。全球超过40亿的互联网用户在享受便利的同时,产生了大规模的数据集。相关企业或人员可以较为容易地获取海量数据。但是,目前大部分企业数据都分散在各个部门或各个业务线的业务系统上,存在数据不一致的问题,如何呈现数据并挖掘这些数据的潜在价值成为一个难题。近年来,数据仓库、联机分析处理(online analytical processin
航天星载设备、航空机载设备,除了追求较高的计算能力外,器件可靠性也是系统设计必须考虑的重要因素之一。现场可编程逻辑阵列(Field Programmable Gate Array,FPGA)作为一种高集成度的半定制集成电路设备,具有并行度高、功耗低,计算速度快和成本低的特点,能够显著提升星载、机载设备的计算能力,但长时间的高温、高辐射工作环境带来的片上电路老化问题严重影响着设备的可靠性,必须有针对
在全世界范围内,脑中风的死亡率仅次于心脏病已成为第二大致死因素,全球每年大约有1500万人患有缺血性中风,颅内动脉粥样硬化是造成脑卒中的重要因素。医学断层成像技术是重建人体三维组织信息的重要手段,磁共振成像广泛应用于颅内动脉血管诊断,其具有高分辨率和多序列的特性,能够清晰地区分不同组织的结构。在磁共振图像中对脑血管标记在临床医学中应用十分广泛,是进一步获得血管信息的首要步骤。研究发现,颅内动脉血管