基于Fisher网络和二值编码的深度紧凑视觉描述子生成方法

来源 :厦门大学 | 被引量 : 0次 | 上传用户:jf8410
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大规模移动视觉搜索中,视觉描述子的紧凑性是影响检索效率的重要因素。Fisher Vector(FV)描述子是一种区分性非常强的聚合描述子,在视觉搜索应用中检索效果出色。然而对于移动或嵌入式设备有限的计算资源来说,图像全局描述子的紧凑性显得尤为重要,而FV描述子的维度太高,限制了其在移动或嵌入式设备上的应用。哈希是解决图像全局描述子紧凑性描述的有效手段之一,然而哈希在量化到低维度的二值码有较大的精度损失。而且通过哈希对FV进行二值编码,整个二值特征的生成过程包括了两个独立的阶段:FV描述子学习和哈希编码学习,因而最终生成的二值码并非全局最优结果。虽然近年来国内外也有不少学者开始关注端到端的深度神经网络模型,试图使用深度哈希方法将图像映射为二值码,但是得到的低维二值码区分性有限,很难在大规模视觉搜索任务中取得较好的检索结果。针对上述问题,本文提出了一种端到端的深度紧凑视觉描述子生成模型,模型主要由Fisher网络模块和二值编码网络模块组成,生成的紧凑描述子能适应大规模视觉搜索任务。其中,Fisher网络模块通过对FV聚合编码公式重构得到,可以嵌入到其它神经网络中使用反向传播算法进行训练;二值编码网络则用于对Fisher网络生成的聚合描述子进行二值编码。通过对这两个网络模块端到端的训练,可以使整个学习过程达到近似总体最优。模型的输入为图像的局部不变特征描述子,输出为中低维的紧凑视觉描述子。这种神经网络模型能充分利用和保持图像的语义信息,使得最终生成的紧凑视觉描述子不仅能保持图像的语义信息,同时尽可能的降低描述子的维度。实验结果表明,本文提出的端到端的深度紧凑视觉描述子生成模型取得了比传统两阶段(FV描述子学习和哈希编码学习)的紧凑描述子生成方法更好的检索效果。
其他文献
石墨烯将人们的注意力吸引到二维材料领域,加速了对其它二维材料的研究和发现。通过周期表第IV族元素(Si,Ge,Sn)代替石墨烯中的碳(C)原子,人们提出并制备了具有相似结构的蜂窝状
随着无线充电技术的发展,催生出无线可充电传感器网络,该新型网络采用无线充电技术给传感器补充电量,提升传感器整体寿命而获得广泛关注。然而,无线充电技术较高的能量损耗导致在现实中应用困难。为了减少充电资源消耗,提高充电效用,本文研究了两个无线充电器部署优化问题,其主要内容如下:研究面向充电效用最大化的充电器部署优化。该部分求解的问题是给定充电功率预算,和平面上一组传感器,将无线充电器部署在2D平面上,
轮胎磨损产生的细小颗粒物包括橡胶颗粒、炭黑及氧化锌颗粒等,磨掉的橡胶颗粒尺度在几微米至几百微米,而与橡胶结合不好被磨下的炭黑颗粒为纳米尺度,纳米氧化锌颗粒尺寸在1-1
实体关系抽取作为信息抽取的主要任务之一,其目的在于确定无结构文本中两个实体的关系类别,为进一步构建知识图谱、智能问答等应用奠定了理论基础。目前实体关系抽取最常用的
随着互联网的发展,域名系统已经成为了互联网的基础设施。域名系统是一种特殊的名称系统,名称系统本质上是一种映射技术,其维护一种名称域到值域的映射关系,其主要功能是为其
随着4G、5G技术的普及和移动互联网的高速发展,人们信息交互变得更加迅捷。视频逐渐变成了人们生活中不可或缺的一部分,然而随着视频的数量呈指数式增加,如何对视频的内容进
介质阻挡放电(Dielectric Barrier Discharge,DBD)因具有装置简单、易实现均匀稳定放电等优点,而被广泛研究并在多个领域中得以应用。但是,由于DBD的放电过程较为复杂,涉及到相
近年来,深度学习技术获得了快速发展,机器翻译领域中的相关研究也不断深入。其中,前几年出现的基于注意力机制的编码器-解码器神经机器翻译框架,在效果上彻底超越了传统的统计机器翻译框架。而最新的Transformer框架,更是将神经机器翻译的效果提升到了新的台阶。由于受到训练方法的限制,这些先进的框架在翻译的过程当中都是将句子作为一个整体来考虑的,而在实际的翻译过程中,我们面对的文本往往是由多个句子组成
东营凹陷永559区位于济阳坳陷的东南部,为北陡南缓的不对称箕状盆地,砂砾岩储层,岩体分布复杂,非均质性较强,孔渗相对较低,油气分布明显受沉积相控制,不同的相带储层物性差异
现有的指纹识别算法应用于低质量指纹图像时,由于指纹图像存在污损、断裂、伤疤和形变等问题,能够提取的有效特征变少或者伪特征变多,从而导致了指纹识别变得十分困难。国内