面向多媒体检索的哈希算法研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:haiyan100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交网站(例如,Facebook、You Tube、Instagram等)和数字电子设备(诸如数码相机、手机等)的普及,互联网上的视频、图像、文本等多媒体数据呈现爆炸式的增长,如何从海量多媒体数据中快速并且准确地搜索出用户所需要的多媒体数据变得极其具有挑战性。此外,多媒体数据往往使用高维的特征表示,不同的特征表示又具有不同的数据结构,由此产生的多媒体数据间的异构性也是一个难题。为此,如何有效地获取紧凑且具有鉴别性的特征表示变成近年来的一个研究热点。哈希算法将高维空间的数据映射到低维的汉明空间,来学习到紧凑的二进制码。由于在计算、存储等方面的高效性,哈希技术已经被广泛地应用于相似性检索。本文针对多媒体数据,结合哈希学习、深度学习,深入研究单模态和跨模态媒体内容的检索算法。本文的主要研究成果和贡献如下:(1)提出了一种新的基于空间关注的深度排序哈希算法。大多数现有的深度哈希方法通过编码全局语义信息直接学习哈希函数,却忽略了图像的局部空间信息。然而局部空间结构的丢失成为哈希函数的性能瓶颈,从而限制了它在相似性检索中的性能。在这项工作中,我们探索由局部和全局视角构造的特征空间的排序结构来学习序数表示,并将它用来生成基于排序的哈希码。其中,局部空间信息是利用全卷积网络(FCN)学习得到的,全局语义信息则是通过卷积神经网络(CNN)学习得到的。此外,本文设计了有效的空间关注模型,通过选择性地学习与目标对象密切相关的位置来捕获局部空间信息。总之,这种哈希框架实现了以端到端的、排序到哈希的方式捕获图像的局部空间和全局语义特性。(2)提出了一种基于语义近邻图哈希算法。大多数现有的跨模态哈希方法基于度量距离或语义标签来定义相似性关系,然而它们忽略了度量空间中固有的类内和类间变化。由此,本文提出同时利用语义监督信息和局部近邻结构来构造语义近邻图,并且对图的局部相似性结构进行编码,通过探索类内和类间变化来保留样本的细粒度相似性关联。具体来说,分别对图像和文本模态构造语义图以捕获它们的局部相似性结构;此外,本文基于语义图的局部相似性定义一个函数,通过对类内和类间变化进行编码来自适应地计算细粒度相似性。在获得统一的哈希码之后,采用基于核的逻辑回归来独立地对每种模态学习哈希函数。(3)提出了一种深度语义多模态哈希网络,用于可扩展的多模态检索。近年来深度哈希方法由于其完美的检索性能而受到前所未有的研究关注。然而,现有的深度哈希方法大多通过保留相似性关系来学习二进制哈希码,并没有利用语义标签信息,导致学习到的二进制哈希码不是最优。而在本文中,本文通过明确地保留模态间相似性和模态内语义标签信息来联合学习两组模态特定的哈希函数,以得到更优的哈希码。本文通过将语义标签嵌入网络的哈希层,从而使网络学习到的哈希码对于分类任务是最优。不同于先前的深度哈希方法,只能关联某些特定形式的损失函数,本文所提的深度哈希框架可以灵活地与不同类型的损失函数集成。此外,约束哈希码的每个位为1或-1的概率为50%,从而使哈希码更紧凑。总体而言,基于特征表示学习、模态间相似性保留学习、语义标签保持学习和具有位平衡约束的哈希函数学习,本文提出了统一的哈希框架来学习紧凑且高质量的哈希码,实现有效的单模态和跨模态检索任务。(4)提出了一种新的基于排序的端到端哈希框架,称为深度语义保留排序哈希。深度跨模态哈希方法同时进行特征表示和哈希函数学习,已显示出优越的性能。然而,大多数现有的深度跨模态哈希方法采用二进制量化函数(例如sign(·))来生成二值哈希码,但是二进制量化函数对数值的变化敏感,致使生成的哈希码的检索性能受到限制。本文所提方法利用神经网络来探索特征维度的相对排序结构,然后对其编码以生成排序表示,并据此学习哈希函数。受益于排序相关度量的稳定性,网络可以学到更鲁棒的哈希码。本文所提方法将排序表示来预测类别标签,让基于排序的哈希函数学习与标签预测最佳地兼容,从而学到较高判别性的哈希码。同时,本文所提方法保留了模态间相似性,以保证不同模态的哈希码一致。重要的是,本文所提网络结构可以与不同类型的网络架构有效集成,展示了本文提出的哈希框架的灵活性和可扩展性。
其他文献
随着云计算和大数据的迅猛发展以及广泛应用,越来越多的政府机构、商业机构以及个人用户开始使用云服务器提供的各种服务。在云提供的各式各样的便利服务中,远程数据存储是应用最广泛的服务之一,它不仅极大程度地节省了用户本地存储开销,而且为用户提供了不受时间及空间限制的存储服务。为了确保存储数据的完整性以及减轻在线验证的压力,用户可以委托第三方对云上存储数据进行完整性公开审计。本论文在已有公开审计方案的基础上
在现代无线通信系统研究领域,数据信号的波形以及无线接入方式设计一直是研究的热点方向,因此已经有相对丰富成熟的研究成果。相较而言,现代无线通信系统中的导频信号却鲜有人关注,然而关键导频信号的设计对蜂窝系统性能至关重要。特别的,当今的蜂窝系统正在从人联网应用以及在授权频段部署扩展到物联网应用以及在全频段部署。在此情形下,新型导频信号的设计对于蜂窝系统在扩展领域必不可少,本文针对蜂窝无线通信技术在大规模
正弦信号的参数估计在军事、电力、生物医学等许多领域有着广泛的应用,因而得到了研究者的高度重视并涌出现大量估计算法。像快速傅里叶变换(FFT)等经典方法已被广泛应用于实际工程中并取得了很好的结果。近年来,正弦信号的参数估计问题在控制领域也受到越来越多的关注,比如在处理线性(非线性)系统的扰动抑制或者柔性机器人的振动抑制等问题时,具有渐近收敛性质以及一定稳定性能的参数估计器往往是必不可少的工具。基于此
毫米波近程探测技术因其在恶劣气候条件下具有潜在优势,加上毫米波固态器件技术的发展,在多个领域得到了广泛的应用。但是在雨、雪、烟雾、和霾等恶劣工作环境下,毫米波近程探测系统获得的信号会受到噪声的严重干扰,系统探测精度等性能会受到很大影响。因此,信号去噪技术成为毫米波精确探测系统不可缺少的一个组成部分,良好的噪声处理技术可以提高探测系统的性能。现有的线性去噪技术对低信噪比条件下毫米波近程探测系统信号的
随着空间电磁环境的复杂化和各类无线应用场景的多样化,对射频系统的设计提出了高性能、可重构、小型化等新要求。天线作为收发前端,其性能直接影响系统功能的实现,因而关于高性能天线的研究成为重要的研究方向。特别是相控阵和数字阵列技术的发展,大大提升了天线波束扫描的灵活性。传统相控阵天线分布于三维空间,通过控制单元的位置排布、激励幅度和相位实现特定的波束综合。然而实际系统应用往往需要兼顾多种性能要求,为了提
随着手机、笔记本电脑等便携式电器的普及,以及近几年来互联网技术和新型智能化电子产品的快速发展,非挥发性存储器在整个半导体行业中有着不可替代的关键作用。目前市场上的非挥发性存储器以闪存(Flash)为主,占半导体存储器市场的很大份额。随着半导体技术不断向前推进,闪存遇到严重的技术瓶颈,科学界和工业界对下一代非挥发性存储器技术正在投入大量的研究。许多结果表明,阻变存储器(RRAM)是下一代存储器的有力
随着科学技术的发展,位置信息已经成为现代社会生活中不可或缺的基础性信息,车辆导航、手机定位、武器制导等都离不开精确的位置信息。传统的单一依靠卫星导航系统的方法已经不能满足实际的需求,卫星/惯性深组合导航已经成为导航领域的研究热点和最有前景的技术之一,深组合系统具有定位精度高、动态性能好、抗干扰能力强等优点。本文以国家自然科学基金和某国防重点项目为背景,以矢量接收机/惯性深组合导航系统为研究对象,主
随着5G通信技术的飞速发展,无线通信系统对天线的性能也提出了近乎苛刻的要求。高效率、宽带、高增益、低剖面、多功能已经成为现代毫米波天线的发展趋势。蓬勃发展的移动互联网应用市场,要求作为射频前端的天线在尽量不影响天线辐射性能的前提下,既在尺寸上做减法,又在功能上做加法,从而满足各类应用场景下对于移动性和功能性的需求。因此,本论文在现有小型化天线设计方法的基础上,针对现有设计方法存在的结构复杂、带宽窄
与相控阵雷达相比,MIMO雷达能够利用波形分集获得更好的参数识别、干扰抑制以及目标检测等方面的性能,受到了国内外雷达学者的广泛关注。利用波形分集带来的优势,MIMO雷达波束形成研究内容包括发射波束形成和自适应波束形成。目前,国内外学者对MIMO雷达波束形成的研究已经取得了一些成果,然而针对不同的工作环境,仍然存在一些问题尚未解决。其中,当发射导向矢量失配时,发射方向图将会产生畸变,降低发射方向图设
随着隐身技术的发展,雷达对于微弱目标检测能力的要求越来越高。对于线性调频(Linear Frequency Modulated,LFM)脉冲体制雷达,延长积累时间通常可以提高输出信噪比(Signal-to-Noise Ratio,SNR),但是在长时间观测情况下,运动目标的回波能量会跨越多个距离单元,造成距离徙动现象。此外,机动目标的回波能量还会在慢时间维跨越多个多普勒频率单元,造成多普勒频率徙动