【摘 要】
:
近年来,由于互联网数据的爆炸式增长和多样化特点,跨模态检索成为了一个研究热点。跨模态检索就是利用一种模态类型的数据检索另一种模态类型的数据,可以帮助人们快速有效的利用不同媒体数据。哈希学习方法具有存储成本低、查询速度快的优点,利用哈希学习方法进行跨模态检索可以在一定程度上提高检索性能。然而,目前利用哈希学习进行跨模态检索的方法存在两个问题:一是现有的跨模态哈希方法只学习了数据的全局特征,全局特征表
论文部分内容阅读
近年来,由于互联网数据的爆炸式增长和多样化特点,跨模态检索成为了一个研究热点。跨模态检索就是利用一种模态类型的数据检索另一种模态类型的数据,可以帮助人们快速有效的利用不同媒体数据。哈希学习方法具有存储成本低、查询速度快的优点,利用哈希学习方法进行跨模态检索可以在一定程度上提高检索性能。然而,目前利用哈希学习进行跨模态检索的方法存在两个问题:一是现有的跨模态哈希方法只学习了数据的全局特征,全局特征表达了数据粗粒度层次上的信息,而局部特征则可以反映数据细粒度层次上的信息,因此现有的方法无法全面利用数据的多层次特征信息;二是现有的跨模态哈希方法在处理多标签数据时把多标签看成同一层次,然而多标签之间一般存在着从粗粒度到细粒度的层次关系,因此这些方法无法有效地利用多标签的层次结构信息。本文利用数据的层次信息进行哈希学习,提出两种层次化深度跨模态哈希检索方法来解决当前方法存在的两个问题。具体来说,本文的主要工作为:1.针对现有方法无法利用数据的多层次特征问题,提出了一种基于层次化特征的跨模态哈希方法。数据的全局特征和局部特征从不同的层次描述了数据的多粒度信息,而现有的单层次特征方法无法利用数据的这种层次化特征信息。本文提出的基于层次化特征的跨模态哈希方法利用深度网络同时提取每种模态粗粒度层次的全局特征和细粒度层次的局部特征,并将这两种层次的特征融合为层次化特征,最后把包含了不同粒度信息的层次化特征映射到哈希码中。此方法将数据的粗粒度层特征和细粒度层特征同时保留到哈希码中,使得哈希码保留了全面的层次化特征信息,有助于提高跨模态哈希检索精度。2.针对现有方法无法合理利用标签的层次信息问题,提出了一种基于层次语义结构保留的跨模态哈希方法,此方法进一步利用层次标签的监督信息来进行跨模态哈希学习。目前多数有监督的跨模态哈希方法是为非层次标签数据设计的单层次类别方法,无法有效地利用标签的层次结构。本文提出的基于层次语义结构保留的跨模态哈希方法为每层标签学习一组类哈希码,并利用层次标签将其扩展为层次语义结构,然后在层次标签和层次语义结构的联合监督下学习哈希码,最后通过线性回归的方式将从深度网络中提取的不同模态的语义特征分别映射到汉明空间中。此方法学习到的哈希码保留了层次语义结构中的层次信息和层次标签中的类别信息,从而可以促进跨模态检索任务。
其他文献
随着信息化的加速,新能源汽车、5G、人工智能和元宇宙等新兴产业蓬勃发展,电源管理芯片的应用场景更加广泛,各行业对电源的品质要求也越发严格,目前开关电源朝着高效低能耗、高功率密度、控制数字化、智能化和抗电磁干扰的方向发展。本文结合车载系统、通信电子及工业控制等应用场景,针对主流开关电源芯片存在的工作效率低下、系统瞬态响应速度慢和保护电路不够灵活等亟需解决的问题,进行了环路补偿优化、高效率和瞬态响应增
近年来,步态识别领域的研究受到了学术界的极大重视。早期的步态识别算法通常基于计算机视觉或压力传感器,随着微机电系统(Micro Electro Mechanical System,MEMS)技术的发展,基于MEMS惯性传感器进行步态识别已经成为主流。步态识别是从惯性传感器数据中提取不同步态类型的特征,以识别受试者的运动状态。步态识别算法通常基于机器学习或深度学习,目前的研究大多采用卷积神经网络提取
随着计算机硬件能力的提升和计算机视觉理论体系的不断完善,SLAM技术得以快速发展。目前视觉SLAM系统中以基于特征点法的前端作为主流,特征点法鲁棒性好,对环境、光照、动态物体不敏感,是现在比较完善的前端方案。但是当图像中提取不到足够的特征信息或者特征匹配效果较差时,系统后续的位姿估计准确度会受到很大的影响,甚至出现跟踪丢失的现象。针对特征点法存在的问题,本文对其做出改进,并提出针对多特征场景的视觉
在智能化立体车库中,RGV作为重要的车辆运载装备,其运行精度、稳定性要求较高。传统RGV控制主要关注RGV软启动,定位准确性,对于柔性加减速控制关注较少。当前的加减速算法包括直线加减速法、指数加减速法、多项式加减速法、抛物线加减速法、S曲线加减速法等算法,存在加速度突变,不能体现柔性加减速的思想,或者算法复杂需要消耗控制器大量逻辑运算时间,抑或固定在控制器参数不方便调节。为此建立基于PLC控制的两
随着航天技术的发展和相关应用的深入,卫星等空间目标的数量日益增加,空间目标监测的重要性不断提高。而随着空间态势感知能力的提升,监测任务已不再局限于探测和跟踪,在轨姿态作为反映空间目标运动状态的重要参数,也受到了越来越多的关注。逆合成孔径雷达(Inverse Synthetic Aperture Radar,ISAR)具有全天时、全天候、远距离探测的能力,可以对目标进行高分辨率二维成像,获取目标的形
伴随着电子信息技术的高速发展,无人作战飞机(UCAVs)凭借其出色的作战能力和低维护成本,成为了世界各国在信息战上的焦点。无人机自出现后已经改变了现代战争形式,也已经发展出多种多样的军事用途,而具有低成本特性、能够协同作战的无人机集群将在未来战争中发挥优势,是未来战争中的关键。而未来战场中信息量爆炸,无人机能否获得有效的战场态势信息,形成有利的决策是无人机对抗研究中的基础和重点。应用强化学习方法的
数字图像是以二维数字像素组形式表示的图像类型,因其具有信息质量高、传输能力强、处理相对简单等特点而在众多领域得到了广泛应用,已成为日常生活中不可或缺的信息表达方式之一。近年来随着各种图像编辑软件的不断涌现,人们对图像的修改与编辑越来越容易,甚至能够轻松实现对图像内容的篡改与伪造,图像盗用、侵权等问题与日俱增,这对图像版权的保护无疑是一种巨大冲击。如何高效检测篡改图像并防止二次确权已成为图像内容版权
无人机被广泛应用在民用和军用领域的同时也对公共安全和航路安全等构成威胁,因此对无人机目标智能感知技术的研究具有重要的现实应用迫切需求。热红外成像设备由于具备全天时的监视能力因此被广泛用于监测无人机,然而在远距离红外成像条件下,无人机目标特征微弱且很容易受到复杂背景的干扰,这对无人机的鲁棒检测带来了严峻的挑战。传统的目标检测方法对无人机目标的特征表征能力和知识利用有限,对复杂真实场景感知能力差。因此
随着数字技术的发展,数字视频的应用和需求日益增大;然而视频采集常常受成像系统以及环境等因素的影响,导致视频分辨率较低而无法满足需要。基于软件方法的视频超分辨率重建技术能够将低分辨率视频帧融合成较高分辨率的图像,成为近年来计算机视觉方向的研究热点。目前基于深度学习的视频超分辨重建算法大多依赖帧间对齐而忽略了帧间时序相关性。本文从注意力机制的角度出发、融合时空信息,提出基于时空注意力机制的视频超分辨率
随着基于位置服务(Location-Based Service,LBS)的应用日益广泛,位置数据的规模也急剧膨胀,本地服务器负荷接近极限,将数据外包给具备海量存储空间和强大计算能力的云计算平台成为必然趋势。位置数据与个人隐私高度相关,用户通常将数据加密后上传至云端,从而预防云端获取任何有效信息,但是数据加密后不利于用户进行检索。因此,一个能够同时保障数据机密性和可用性的云端安全检索方案,可作为位置