基于图像语义相关性学习的视觉检索重排序

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:gksword
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于内容的图像检索是计算机视觉中的基础研究方向,其旨在从大规模图像库中找出与查询图像语义相关的图像,并按相关性降序排序后返回给用户。图像检索在商品检索、地标检索、行人检索等领域有着广泛的应用。视觉重排序是基于内容的图像检索系统中重要的后处理步骤。当初次检索的结果不尽如人意时,可以使用视觉检索重排序技术对初次检索的结果进行优化,从而进一步提升图像检索的精确度。近年来,视觉检索重排序技术取得重大进展,已成为许多图像检索系统中的核心模块。然而,现有的视觉重排序技术仍存在一些不容忽视的问题。首先,现有的重排序方法难以有效应对初排结果中排序靠前的噪声图像,而这些排序靠前的图像对获取查询图像的额外信息至关重要,这对后续重排序的性能提升造成了阻碍。其次,现有的方法往往计算复杂度高,难以有效兼顾检索精度和计算时延。最后,许多重排序方法的鲁棒性较差,只能适用于特定的特征或检索任务,难以应对真实检索系统中的复杂情况。这些问题限制了视觉重排序方法应用于真实的图像检索系统。为了解决上述问题,本文面向图像检索任务,提出基于图像语义相关性学习的视觉检索重排序框架,利用图像之间的视觉特征相似性,学习图像之间的语义相关性,从而在提升图像检索精确度的同时控制较小的计算开销。本文的主要工作包括如下三个方面的内容:首先,本文提出一种基于协同相关性学习的视觉检索重排序方法。观察到初次检索结果中排序靠前的图像之间包含着重要的上下文信息,这些信息可用于学习图像间的语义相关性。为此,本文在初次检索结果基础之上,提出了一种协同视觉语义相关性学习方法,通过更加准确的度量查询图像与初次检索排序靠前的图像之间的相关性,对初次检索结果进行重排序,提升检索精度。具体地,本文将初排列表排序靠前的图像表示为相关系数矩阵以表征图像之间的上下文信息,并使用一个轻量的卷积神经网络回归模型同时学习所有图像之间的相关性。为了为不同的查询图像选择最优的重排序长度,本文提出一种查询图像自适应选择方法。该工作能够以极小的计算开销提升图像检索的精确度。其次,本文提出一种基于上下文相似性聚合的视觉检索重排序方法。在图像检索中,初排结果排序靠前的图像之间的上下文相似性是区分语义相关性的重要线索。本文定义了一个关联特征,以表征初排列表中候选图像间的上下文信息。为了进一步聚合候选图像的上下文相似性信息,本文提出使用一个以Transformer编码器为核心的网络学习图像间的相关性,并聚合候选图像的关联特征。由于本研究工作提出的重排序模型以图像的关联特征作为输入,因此重排序网络具备较好的通用性与泛化性。本方法能够在保证低时延的前提下,大幅度提升图像检索的精确度。最后,本文提出一种基于自适应查询扩展学习的视觉检索重排序方法。在传统的查询扩展方法中,往往会定义一个关于图像排名单调递减的权值函数用于图像聚合,而这种方案无法根据图像之间的相关性进行特征聚合。为了解决这一问题,本文提出将查询扩展问题转变为表征学习问题,即训练一个网络生成查询图像的扩展特征。本研究工作使用Transformer编码器学习图像之间的相关性,并将其用于特征聚合。为了约束聚合得到的特征与原特征在同一特征空间,本研究工作对编码器的结构进行了修改。本研究工作提出的方法不产生单调下降的聚合权值,而是通过网络直接生成查询图像的扩展特征。本方法解决了传统的查询扩展方法的缺点,在不大幅增加计算开销的前提下有效提升了检索的精确度。本文针对图像检索中的视觉重排序任务,根据初次检索结果中图像之间的相似性,本文提出三个不同的方法学习图像之间的语义相关性,从而优化初排结果。本文将详细阐述上述三个研究工作,并通过完善的实验证明所提出方法的有效性、高效性与鲁棒性。
其他文献
托卡马克等离子体高参数运行需要优化控制等离子体电流密度剖面、电子密度剖面及温度剖面等。这些参数均有相应诊断可以给出分布,如电流密度可用电磁测量、运动斯塔克效应等;电子密度可用偏振干涉仪、汤姆逊散射等。部分积分诊断还需要结合磁面测量才可以获得精确的剖面分布。相较于基于复杂物理模型的传统等离子体剖面重建算法而言,贝叶斯推断的等离子体剖面重建以概率统计的方式决定待求剖面的条件概率,给出基于拟合诊断测量数
学位
氨基醇类化合物广泛存在于天然产物以及药物分子中,是一类非常具有合成价值的化合物。对于氨基醇类化合物的合成,最简单有效的方法之一是环氧醇或氮杂环丙烷醇的亲核开环反应。此类反应具有反应条件温和,操作简单,原料及催化剂廉价且简单易得等优点,对于有机合成具有重要意义。本文分为三个部分来介绍路易斯酸催化的环氧醇和氮杂环丙烷醇的开环反应。第一部分:硼酸催化3,4-环氧醇的区域选择性胺解反应在本部分工作中,我们
学位
现代社会信息产业蓬勃发展,人们对于计算资源、计算能力的需求永无止境,但随着芯片加工尺寸接近原子量级,量子效应显现,晶体管电路逐渐接近性能极限,基于半导体产业的经典计算机计算瓶颈愈发显现,人们迫切需要探索新的计算方式。量子计算是一种利用量子力学原理调控信息单元从而完成计算任务的新型计算模式,其借助量子体系中的态叠加和纠缠特性可以实现并行计算,在特定的计算问题上,能够突破经典信息系统的计算极限,产生指
学位
随着互联网的飞速发展,视频数据量呈指数级增长,给存储和传输造成巨大压力,因此迫切需要对视频进行更高效的压缩。视频数据中主要为时间冗余,帧间预测是去除时间冗余的核心工具。因此,如何高效地进行帧间预测是提升视频编码效率的关键。经过四十多年的发展,帧间预测技术取得显著进步,但随着研究的深入,传统帧间预测的发展也逐渐遇到性能瓶颈,这主要有两方面原因:第一,传统帧间预测模块是手工设计和优化的,预测能力有限;
学位
金刚石中的氮-空位色心(Nitrogen-vacancy Center,NV)在室温大气下有优异的相干性质,可通过激光实现量子态的初始化和读出,是量子计算和量子精密测量中非常优良的量子体系之一。作为一种量子磁传感器,NV色心具有极高的灵敏度和空间分辨率,迄今已实现了单个电子自旋和核自旋的纳米磁共振探测。在过去的十年里,基于NV色心磁测量的应用研究已经扩展到生物、医药、凝聚态等多个领域。当前对NV色
学位
人工智能是一门研究如何赋予计算机类人智能的学科,涵盖图像处理、语音处理、自然语言处理等多项技术,其中自然语言处理架起了人类与机器之间语言沟通的桥梁。为了方便人类与机器进行自然且沉浸式的语言交互,科学家们致力于构建诸如 Apple Siri、Google Now、Microsoft Cortana 和 Amazon Alexa 等智能对话系统或社交聊天机器人,这也是人工智能领域长期关注的关键任务之一
学位
行人重识别旨在从多个摄像机拍摄的数据中正确匹配感兴趣的行人,其在智能安防、智慧交通以及智能警务等领域有着广泛应用。近些年随着深度学习的快速发展以及计算设备的性能提升,行人重识别研究取得了瞩目的进展。然而,行人重识别面对的监控场景是复杂多样的,遮挡、模糊、背景和衣着变化等因素会给现有方法带来很大的挑战。为了更好地应对复杂环境,提升行人重识别系统的鲁棒性和区分力,本文从多线索信息融合的角度出发,在时空
学位
固体壁面上的接触线运动和气—液界面演化在自然界及日常生活中广泛存在,在工业生产中有着重要的应用。移动接触线的奇异性、界面的多尺度性和几何奇异性结构是界面动力学研究中的巨大难题。考虑接触线模型的润滑理论,是研究界面问题的重要理论方法,但在处理复杂界面时仍存在挑战。本文通过理论分析和数值计算相结合的方法,基于长波近似,在多个气—液界面问题中推广了润滑理论,并研究了相应的界面特征和接触线行为,主要工作内
学位
随着互联网应用的普及,当今时代的信息量呈爆炸式增长。作为一种能在海量数据中获取知识和处理信息的技术,深度学习因其优秀的性能被广泛应用于数据挖掘、计算机视觉、自然语言处理等领域。作为深度学习技术实现的重要载体,深度学习模型本身具有巨大的应用潜力与商业价值,也因此面临着盗版和篡改等一系列安全问题。为了应对这些潜在的威胁,大量深度学习模型的保护策略应运而生,其中模型水印技术作为一种主动的保护方法,通过将
学位
视频多目标跟踪作为计算机视觉的重要任务之一,其给出的目标轨迹为视频理解、场景感知等提供了一定的技术支持,具有广阔的应用前景,如自动驾驶、智能监控、无人机、医疗影像等。早期的视频多目标跟踪算法在跟踪目标时,利用滑窗的机制,每次处理一个时间窗口内的多帧视频。这类算法在处理一帧视频时由于用到了后续若干帧的信息,无法对获取的视频帧进行及时处理,具有一定的时延,因此被称为离线多目标跟踪算法。近几年,为了满足
学位