基于深层特征的图像检索研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:geolin1965
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像检索是模式识别中极具挑战性的研究方向。其中特征提取和紧凑的特征描述是图像检索技术的重要组成部分。传统的图像检索技术主要由两部分组成:(1)基于文本的图像检索(TBIR);(2)基于内容的图像检索(CBIR)。TBIR技术存在局限性且难以精确描述图像内容,而CBIR虽然能够通过低层视觉特征传达图像信息,但在高层语义表达方面仍存在很多不足。近些年,卷积神经网络(CNN)在图像检索和图像分类等任务中取得优异表现。在卷积神经网络中,通常采用预先训练CNN模型的卷积层或池化层的激活表示图像高级语义信息。虽然在语义表达方面优于传统图像检索技术,但是所带来检索性能的提升十分有限。而在预先训练卷积神经网络的基础上进行针对性再训练,不仅可以获得高效的特征表示,并且在表示图像深度语义方面有显著优势。针对于不同的检索任务,本文给出不同的解决方案。主要内容如下:
  1.在CBIR中,本文提出一种多阶段特征整合的图像检索方法。首先将输入图像从RGB颜色空间转换到符合人类视觉感知的HSV颜色空间,并计算图像颜色和颜色差;然后通过简单的颜色差计算得到图像的边缘特征;最后通过多阶段特征整合组合低级视觉特征表示图像内容。基于多阶段特征整合方案不仅能够描述图像颜色和边缘属性,而且可以很好地表示图像区域和空间排列信息。实验结果表明,在传统的图像检索数据集(Corel-10K、GHIM-10K和Corel-5K)中,本文提出的多阶段特征整合方案具有优秀的辨别能力。
  2.通过整合图像低级视觉特征可以很好地表示图像视觉内容,但基于多阶段特征整合方案始终属于手工特征提取方法,难以真正处理图像语义问题。为了更好地缓解图像语义差异,本文提出了一种基于端到端微调再训练的深层特征图像检索方法。在预先训练卷积神经网络(AlexNet、VGGNet和GoogLeNet)的基础上采用孪生网络架构进行对比损失训练,并对不同的网络基准进行性能比较。并且通过学习白化参数和加权扩展查询方法进一步提升图像检索性能。同时在训练数据集的选择方面,本文采用更接近实例图像检索任务的训练数据集,使得网络参数的学习更具有针对性。
  尽管本文提出的多阶段特征整合方案在图像检索中有良好的表现,但是手工特征提取方法不适用于实例图像检索。在实例图像检索数据集(Oxford5k、Paris6k和Holidays)上的性能表现证明,基于微调再训练的深层特征图像检索方法不仅优于传统的基于内容的图像检索方法,而且优于预先训练的卷积神经网络的特征提取方法,同时能够更好地应对“语义鸿沟”问题。
其他文献
图像描述主要解决的问题是如何使用自然语言自动描述图像的内容,该研究主要涉及了计算机视觉和自然语言处理两个研究领域,是人工智能中一项重要的研究工作。随着数字图像的广泛使用和传播,其信息价值飞速增长,图像描述作为图像与自然语言的桥梁,具有广阔的应用前景。图像描述可广泛应用于图像检索、语义视觉搜索、多模态检索、对话机器人的视觉智能、视障辅助、军情侦察、智能监控等。  本论文研究细粒度图像描述方法,使计算
互联网不断地发展带来了海量的高维数据,其特点是维度众多,而其中许多维度价值密度相对较低。如何在众多维度中找到价值高的维度,是许多研究者研究的问题;而且由于数据的快速增长以及赋予数据类别标签的成本高昂,越来越多的数据没有标签。因此,特征选择、半监督学习成为研究的热点。此外,由于图模型可以模拟数据的流形结构,有很好的数据表达能力,因而结合特征选择、半监督以及图学习理论的基于图的半监督特征选择进入大家的
图结构数据,像交通运输网、地铁网络和社交网络等在现实世界中大量存在。因此,学习并理解图是机器学习中的关键。目前关于图的研究主要分为:图分类和节点分类。节点分类通过给定一个在某些节点上带有标签的网络,它将预测该网络上其他节点的标签,是网络挖掘中非常重要的任务。节点分类实际上是一个机器学习问题,它将机器学习中的分类模型应用到了网络中。节点分类本质是对已有的分类模型进行改进,使其获得更好的分类效果。图表
学位
针对传统的物联网集中式访问控制模型,这些模型一般建立在可信第三方之上。物联网存在单点故障和数据篡改等问题,容易造成隐私泄露。此外,物联网设备还受到电力、内存,计算能力等限制,这种建立在可信第三方之上的访问控制模型面临巨大的管理和维护成本。随着物联网设备的急剧增加,这种模型无法满足物联网节点随时加入或离开的动态性特点,使得越来越多的物联网设备存在管理效率低等问题。因此,物联网的安全和隐私问题一直是物
学位
区块链技术(Blockchain)因其特有的去中心化、去信任、无法篡改、可追溯等特点,可以实现无信任基础的多方建立可信的数据共享和点对点的价值传输,从而得到了学术界和工业界的广泛关注。在区块链中,所有完成的交易都需要进行数字签名后存储用来验证交易。因此,如何增强区块链的数字签名可扩展性成为了一个具有挑战性的问题。其中,区块链交易的数字签名的大小和验证签名的计算成本是限制签名可伸缩性的主要因素。多重
学位
电子商务的发展使得在线交易日益频繁,在线交易规模也日益扩大。消费者与商家的交互越来越多,不可避免地要进行在线谈判。传统的在线谈判方式是低效的人工谈判,人工谈判已经不能满足广大消费者日益增长的潜在需求。随着人工智能技术的发展,智能主体技术已日益成熟,使得电子商务领域的自动谈判成为了可能。智能主体能够随时与人类进行高效的谈判,节约了大量人工成本。因此,人机谈判吸引越来越多的学者的兴趣。目前有很多关于自
学位
当前,人们利用互联网进行信息传递日益频繁,图像、视频等多媒体数据被广泛于各种互联网应用,因此如何确保信息在传输过程中的安全已成为一个亟待解决的重要问题。初期阶段,研究人员使用加密技术将原始信息内容打乱成无实际意义的乱码,有效解决了信息的安全问题。随着云存储与大数据技术的兴起,越来越多的用户希望将数据传送到云端保存。由于对服务商的不信任,因此许多用户会对信息进行加密,然后再上传到云端,这导致云端出现
学位
随着各种网络社交平台的兴起,文本作为这些平台的主要信息载体,数据量每天都在高速增长,如何正确处理这些海量的文本信息,即,将文本分类管理和应用,已经成为一项重要研究课题。近年来,文本分类的深度学习方法获得快速发展,可以快速准确的对大规模文本数据进行处理,具有广阔的应用前景。因此,本论文瞄准文本分类的深度学习方法,在下面两个方面取得研究进展:(1)提出基于改进的Cluster GCN的文本分类方法。首
学位
多相流现象对我们的生活生产具有重要的借鉴和指导意义,在能源的开发与储备、生命科学的研究与探索、材料的制备与应用等方面有着广阔的发展前景。其中多相流中液滴弹跳现象与我们的生活最为紧密,已经应用于我们的生活中,如打印、喷涂、自清洁等。液滴弹跳现象的研究在国内外已经取得了丰硕的成果,但仍然还有许多未被研究和深入探索的领域,特别是对液滴弹跳现象定量分析的研究相当少,加之液滴微尺度、瞬息变化快、易于变形等诸
学位
随着移动拍照设备的广泛使用,每天连续产生大量的图像,传统的图像数据管理工作包括图像存储、处理和检索技术已经无法适应快速增长的数据所带来的压力。用户往往将大量图像数据外包到云服务器以减少本地存储成本,同时为了确保图像安全防止隐私泄露而选择在外包之前对图像数据进行加密。然而加密后的图像数据失去了明文特征和数据之间的关联性,影响用户对图像数据的管理,导致无法进行高效地图像检索。虽然可以事先构造加密索引并