面向大规模图像检索的深度监督编码方法研究

被引量 : 0次 | 上传用户:w633744
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息技术的发展,多媒体数据内容呈现出数据量大,数据结构复杂,数据维度高的特点。如何对多媒体数据,尤其是图像数据进行有效的检索成为了当下热门的研究内容,目前常用的图像检索方法包括基于树的方法和基于编码的方法。其中,基于编码的图像检索方法包括哈希方法和量化方法。由于基于编码的图像检索方法具有内存消耗低和检索速度快等特点,受到了广泛关注。哈希方法是将原始高维数据投影到汉明空间的二进制码,提高距离计算的效率。量化方法是将原始高维数据投影为有限数量的码字,降低相似性度量的复杂度。随着深度学习的发展,更多的学者开始将有监督深度学习方法应用到基于编码的图像检索方法中。基于深度监督编码的图像检索方法通过优化设计的损失函数,将原始图像投影到度量空间,极大地提高了检索性能。然而,已有的基于深度监督编码的图像检索方法仍然存在许多问题有待进一步研究。1)如何有效避免深度模型收敛慢和特征局部信息丢失。深度监督哈希编码方法通常利用饱和函数生成二进制码,容易出现梯度消失,导致模型收敛慢,并且由于深度监督模型中的下采样操作,导致特征丢失局部信息,限制了检索性能的提升;2)如何均衡码字的表征能力,避免码字冗余。深度监督量化编码方法的码字的数量设置依赖人工经验,容易出现少量码字量化了大量特征的情况,产生了冗余码字,影响了检索性能;3)如何有效提高码字的判别能力并且避免量化边界退化。深度监督量化编码方法没有充分考虑最大化码字之间的距离,导致码字判别能力下降。又由于码字初始化是随机的,且码字学习过程中缺乏语义信息的有效监督,导致部分码字的量化范围过小,量化边界出现退化现象。本论文以大规模图像检索为背景,针对上述问题对基于深度监督编码的图像检索方法展开了深入的研究,取得的主要成果如下:(1)针对基于深度哈希编码的图像检索方法存在深度模型收敛较慢和特征局部信息丢失的问题,本文提出了基于金字塔连接的深度损失驱动多尺度哈希编码方法。本方法设计了金字塔连接的CNN结构,使得损失函数的梯度直接传递到每一个卷积层,加快模型的收敛速度。同时,该结构能够聚合不同尺度的卷积层特征,生成有效补偿高层卷积特征信息丢失的损失驱动多尺度特征。为了在二进制码中嵌入更多的语义信息,提出了一种保持语义信息的损失函数,提高了二进制码的表征能力。在四个基准数据集上大量的实验结果表明了,本方法能够有效提高检索性能,也证明了损失驱动多尺度特征的优越性以及金字塔连接的可扩展性和有效性。(2)针对基于深度量化编码的图像检索方法存在码字表征能力不均衡的问题,本文提出了基于熵优化的深度加权乘积量化编码方法,将原始样本分解为码字和权重,利用码字的线性加权和来编码样本。同时,建立了语义信息与加权码字之间的线性关系,有效地保持了码字的语义信息。为了均衡码字的表征能力,避免图像特征被表征能力差的冗余码字量化,利用最优传输理论得到图像特征最优编码概率分布,并将编码概率分布的熵最大化,实现了图像特征的最优分配。在三个基准数据集上的实验结果表明本方法可以有效均衡码字的表征能力,证明了加权码字可以显著提高检索性能。(3)针对基于深度量化编码的图像检索方法存在码字判别能力不足和量化边界退化的问题,本文提出了基于双距离优化的深度量化编码方法,推导出码字之间最小余弦距离的上界,最小化样本与码字之间欧氏距离的同时最大化码字之间的最小余弦距离,极大地提高了码字的判别能力。为了解决在量化过程中的量化边界退化的问题,设计了一种尺度约束的语义保持损失,将特征和码字之间的内积转换为类别概率分布。通过最小化类概率分布和标签之间的交叉熵,使得一个码字只能量化一个类别的特征,并将原始特征空间投影到均匀分布的球形码本中。在三个基准数据集上大量的实验结果表明本方法有效提高了码字的判别能力,同时避免了量化边界的退化。
其他文献
研究背景糖尿病性心肌病(diabetic cardiomyopathy,DCM)是由代谢紊乱引发的心脏疾病,其心脏结构改变包括心肌纤维化、心肌肥厚和冠脉损伤等,其中心肌纤维化是DCM的主要特征。临床试验发现,糖尿病患者血糖水平和心肌纤维化程度呈正相关,但目前无直接证据表明控制血糖可改善心肌纤维化并减少心血管不良事件的发生。因此,寻找DCM发病中的关键靶点对于延缓DCM心肌纤维化的发生具有重要意义。
学位
对于全无机钙钛矿光电材料的研究给光电子学领域注入了新的活力。这类材料的光吸收性能、载流子寿命和荧光产率等本征特性优异,且制备方法多样、带隙连续可调,因而被广泛地应用于光电探测、太阳能电池、发光二极管、高能粒子探测等领域。然而,受限于湿化学法制备薄膜的复杂结晶过程,在高质量钙钛矿光电薄膜的制备、本征性能的研究等方面还存在诸多不足。因此,使用脉冲激光沉积方法生长高质量的薄膜样品,并以此为载体探索相关光
学位
研究背景急性髓系白血病(Acute myeloid leukemia,AML)是目前最常见的一类急性白血病。化疗依然是临床治疗AML的主要手段。但目前AML患者化疗药物治疗后的完全缓解(Completeresponse,CR)率仅为50-70%,给社会和家庭带来沉重负担。化疗耐药是AML难治复发的主要原因,寻找介导AML化疗耐药的关键分子、探究AML化疗耐药的发生机制是当前AML临床及基础研究的热
学位
当下,随着大数据、人工智能技术、移动终端等现代信息技术的飞速发展和应用,教育已进入了数据智能化时代[1]。智慧课堂正以“教师精准教、学生个性学”的智能高效教学模式,有效地改变着当下中小学的课堂教学样态。如何在文言文教学中发挥“智慧课堂”技术赋能优势,真正做到智慧学习,高效学习,则需要一线教师深耕“智慧课堂”,在实践中探究出与文言文教学深度融合的教学应用策略。下面,笔者以统编教材四年级下册《囊萤夜读
期刊
大数据时代的到来极大方便了人们的生活,然而每天产生的海量数据使得基于冯·诺依曼架构的传统计算机不断地受到挑战。传统的计算机由于存算分离,导致信息在存储和计算时需要频繁地来回“搬运”,在处理数据时有大量的时间和功耗都浪费在数据传输上。这种因存算分离而带来的高能耗和高延迟严重制约着信息处理效率,因此迫切需要构建一种新的计算机架构来处理日益增长的海量信息数据。而人脑就是一台高度并行、低能耗、高效率的智能
学位
来自于工业烟气和机动车尾气的NOx引发了多种环境污染问题,同时危害了人体健康。NOx去除依然是目前大气污染治理的重点,我国推出了严厉的政策和排放标准控制NOx排放。使用催化剂对NOx进行催化还原是控制NOx排放的有效技术途径,且该技术的核心是制备高效稳定的催化剂。现有脱硝工艺中的催化剂存在低温活性不佳、工作温度窗口窄、对SO2/H2O及碱金属抗性差等问题,制约了催化剂的应用。开发廉价高效、宽温度窗
学位
随着科技的发展,集成光学在实现高速信息处理方面展现出了越来越强大的优势。铌酸锂是一种物理性能优异的光学晶体,具有优秀的电光、声光以及非线性光学性能,具有较大的光学透光范围,是一种较为成熟的光电材料,被人们广泛地应用于集成光学领域。利用离子注入与直接键合技术(又称智能切割技术)制备的薄膜铌酸锂(Thin Film Lithium Niobate,TFLN)提供了较强的光学模式限制能力,为铌酸锂薄膜上
学位
第一部分RGD修饰的新型载姜黄素壳聚糖/全氟己烷纳米胶囊的制备及其特性研究目的制备RGD修饰的新型载姜黄素壳聚糖/全氟己烷(RGD-CS/PFH-Cur)纳米胶囊,对纳米胶囊的理化特性、体外稳定性等进行评价,并探讨该新型纳米胶囊在超声辐照下的药物释放情况。方法主要采用纳米乳液法,制备携带姜黄素的壳聚糖/全氟己烷(C S/PFH-Cur)纳米胶囊,再通过表面肽交联法制备出RGD修饰的载姜黄素的壳聚糖
学位
深度学习技术用于医学图像分析时可获得高精度、高效率的结果,且模型稳定、可扩展。基于深度学习技术构建计算机辅助诊断方法,可帮助医生更方便、准确地分析医学图像,并作为辅助诊断工具服务于实际临床应用。然而,使用计算机视觉通用的深度学习方法分析医学图像,并不是计算机智能辅助诊断的最佳解决方案。与计算机视觉任务中的自然图像相比,医学图像分析需要结合医学知识,对影像中所包含的解剖、成像信息进行解读,这些先验知
学位
大多数喉部回声定位的蝙蝠能够在茂密的植被等复杂的环境中进行定位和捕食,需要相当多的技能,例如机动性和即使在许多干扰回声的情况下也能以可靠的方式编码相关感官信息的传感能力。一些蝙蝠在密集杂波中捕食猎物的感知能力是基于多普勒特性。具体而言,Rhinolophidae、Hipposideridae、Rhinonycteridae 和少数 Mormoopidae 科的物种具有包括脉冲设计、内耳、听觉系统和
学位