基于多特征融合及短期记忆选择网络的视觉关系检测

来源 :浙江大学 | 被引量 : 0次 | 上传用户:zhongsichuang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自2012年Alex-Net在ImageNet大规模图像分类比赛中取得成功后,深度学习在图像分类、目标检测和分割的性能上都取得了非常大的提升,达到甚至超过了人类的识别水平。在此基础上,进一步研究图像内容理解成为大势所趋。视觉关系检测作为对象检测和图像理解的中间级任务,在近几年受到越来越多的关注,成为计算机视觉领域的研究热点之一。视觉关系检测的目标是从图像中识别出所有的<主语-谓词-宾语>三元组,同时标注出主语和宾语的位置,可分为谓词检测、短语检测、关系检测等三个子任务。与图像分类、目标检测等任务相比,对象之间的关系更为抽象,因而如何有效表征自然图像中对象之间的视觉关系是一个挑战。近几年来研究人员先后提出了基于语言先验、统计依赖和知识表征学习等技术的视觉关系检测方法,它们利用了对象的视觉特征、位置特征和/或者语义特征进行关系检测。然而,这些方法一方面没有充分获取有效表征对象间视觉关系的特征,另一方面也没有考虑不同种类特征之间的相互联系,因此检测性能还不太理想。针对上述问题,本文对图像中对象之间的视觉关系表征进行探索,从对象多特征融合表达、多特征的相互关联作用两个角度,对视觉关系检测方法开展研究,主要工作如下:1)提出了一种基于对象多特征融合的关系检测方法。首先利用CNN提取每个对象的视觉特征和对象之间的位置特征,利用词向量矩阵提取每个对象的语义特征。然后,采用两级特征融合策略对三类特征进行融合,使得特征之间能够相互关联,从而可以更好地表征关系;最后基于融合的多特征进行视觉关系分类。通过在公开数据集VRD和VG上的实验对比,该方法在视觉关系检测的三个不同子任务上的性能均优于深度关系网络(DR-Net)和深度结构排序(DSL)方法。2)提出了一种基于短期记忆选择网络(Short Term Memory Selection network,STMS)的视觉关系检测方法。在多特征融合的视觉关系表征的基础上,利用GRU模仿心理学中的短期记忆选择机制建立视觉关系检测模型,将主语和宾语联合区域的特征作为初始状态,主语和宾语作为输入,通过主语和宾语刺激联合区域,输出视觉关系分类结果。该模型的优点在于不仅充分利用了联合区域的特征,而且依靠神经网络的强大推理能力去除不重要的背景信息,从而达到提高检测性能的目的。在公开数据集VRD和VG上进行的对比实验表明,本文提出的方法比目前最优方法在最重要的关系检测子任务上的Recall@50高出3%;其他子任务性能对比也证明了我们提出的短期记忆选择网络的有效性。
其他文献
目的探讨大学生应对方式及社会支持与心理健康的关系,以便更好地开展心理健康教育。方法对临沂师范学院的216名大学生采用症状自评量表(SCL-90)、应对方式问卷和社会支持评定
目的探讨狼疮性肾炎(LN)患者淋巴细胞亚群的变化及所处的不同状态在LN发病机制中的作用。方法采用双标染色技术结合流式细胞术,对32例LN进行研究。结果①LN患者CD3+CD4+细胞的百
道德都是历史的、具体的,但并不意味着人类不存在某种道德的普适性,也不表明当今社会毋须对普适伦理的寻求。康德的道德既是德性又是规范性;既是道德主体之自觉,又含有道德本体之
通过平时在会计电算化教学中使用用友软件,以及参与一些使用单位的维护工作,经常发现在利用用友UFO报表系统编制报表的过程中,存在一些经常遇到的难题.本文以资产负债表为例,
容积率作为城市开发控制的主要指标,是控规编制的核心指标。目前,我国容积率的确定存在"拍脑袋"行为,容积率刚性控制与开发弹性之间也存在矛盾。基于此,研究提出容积率的确定
<正>近年来,为贯彻落实党和国家复转军人接收安置政策,在党和国家政策指引下中央企业主动承担国防义务,每年按照新招录用工的5%招收符合政府安排工作条件的退役士兵。退役军
互联网的发展以及智能终端的不断增加,为社会各行各业的发展带来了新的活力。在互联网和移动互联网的带动下,微博的发展非常迅速,而随着微博用户的不断增加,微博已经成为国内
【正】 上一节所讲的防止外汇风险的方法,除运用外汇市场与货币市场有关业务外,并从贸易合同的签订,计价货币的选择,贸易策略的确定上来考虑减缓或消除货币风险。本节则集中
自主学习实现了课堂教学中"学生主体"的教学理念,合作学习实现了教师的角色定位转变,使得学生在合作中掌握了语言运用技能和专业知识。在国际贸易课程教学过程中,教师要构建合