论文部分内容阅读
Facebook、Twitter、微博和微信等众多平台的频繁使用,导致了图像数据的来源广和产出高,使得图像信息资源的有效管理和高效检索显得尤为重要。如何从大规模的具有丰富视觉和语义信息的图像库中精准、高效的检索并返回用户需要的图像,是目前多媒体图像检索领域的研究热点与难点。图像检索技术已广泛应用于监控安防系统、辅助医疗诊断系统、购物消费平台等众多领域。然而“语义鸿沟”的存在以及图像检索效率低,导致了该技术的有限发展。于是,便有了卷积神经网络、哈希算法和目标检测算法若干关键技术的发展。卷积神经网络凭借其模拟人脑机制,建立多层神经网络分析抽象的高层语义特征的学习方法,有效地减小甚至消除“语义鸿沟”。哈希算法完成了高维特征到低维特征空间的映射工作,通过降低特征维数从而减少计算量的方式,完成快速响应用户检索的任务。目标检测算法精准定位目标位置和识别目标类别,有效地提高了图像检索的精度。本文主要的工作以提高图像检索效率为目标,从以下三个方面展开了研究:(1)综述了图像检索的研究背景、意义和现状,介绍了论文的研究内容和结构安排。概述了图像检索技术的若干关键技术。(2)针对传统的基于视觉特征的图像检索方法特征表达能力弱,高维度特征计算复杂度高的问题,提出了基于卷积深度哈希(Convolutional Deep Hashing)网的图像检索方法。通过新增Binary-like层并设计新的损失函数,获得紧凑的表达能力强的哈希特征,在低维度空间完成高效的大规模图像检索任务。(3)针对原始SSD(Single Shot MultiBox Detector)算法对待小目标检测鲁棒性不高和特征提取速度慢的问题,提出了基于增强的SSD-MobileNet(Enhanced SSD-MobileNet,ESSD-MobileNet)的多目标图像检索方法。该方法采用ESSD-MobileNet多目标检测算法定位图像的多目标区域并提取多目标区域特征,引入非极大值抑制方法筛选最终多目标区域,设计了相似性度量方法,更加合理的得到多目标图像检索结果。