基于弱监督哈希学习的图像检索相关技术研究

来源 :西北大学 | 被引量 : 0次 | 上传用户:yaoshikyo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球互联网模式全面迈进WEB2.0时代,互联网信息的生成模式已由传统网站雇员生成转变为用户主导生成,借助微信、微博等多媒体社交平台进行虚拟社交活动日趋常态化,越来越多的人通过发布、分享多媒体信息来进行沟通交流。其中,以图像、视频为主的视觉数据占据的比重也逐渐加大。据谷歌公司的统计结果显示,图像数据占互联网数据总量的比重大于65%。由于图像数量的激增、图像本身的高维特性以及图像特征表示和高层语义的“语义鸿沟”等问题,如何针对大规模图像数据构建合理的表示方法和高效的索引结构在学术和工业领域都受到了广泛的关注。
  近年来,伴随数据量的爆炸式增长,近似最近邻搜索的发展十分迅速,而针对高维度海量数据下的最近邻检索问题,哈希学习技术具有速度快、占用存储空间少并且能准确保留原始空间相似关系等优势,因此备受关注。目前,虽然一些有监督的哈希学习方法在某些公开的数据集上取得了不错的结果,但面对真实环境下的应用需求仍然存在诸多局限性。一方面,有监督标签通常为人工标注标签,标注过程耗时耗力;另一方面,人工标注由于类别数目上的限制,只能对图像内容进行粗粒度的描述。而互联网社交媒体上的标签不仅数量庞大,同时是一种反映群体智慧的无结构的语义标注信息,可以提供更准确、更详细语义信息。然而,在社交媒体环境下的描述信息由用户自发产生,具有多样性的特点,同时又存在噪音、不规范、语义模糊等问题,是一种“弱标注”信息。因此,如何有效利用社交媒体中反映群体智慧的“弱标注”信息来训练视觉语义哈希模型,进而提高检索效果是一个亟待解决的问题。另一方面,针对某些特定任务,已有人工标注的标签可能是一种相关但不准确的标注,例如,对于目标检测任务,图像级的标签就是一种相关但没有包含目标位置的弱监督标签,或者对于面瘫检测任务,面部表情的标签也是一种相关但不准确的标注。若能利用这类标签进行哈希学习,可以解决具体检索任务中的标签匮乏问题。此外,用户的图像检索需求除了全图检索外,还存在细粒度的检索需求,如用户可能关注的是查询图片中的感兴趣区域或对象。本文针对这两类检索模式,研究如何利用上述弱标注信息学习图像的哈希表达。具体开展了如下工作:
  (1)研究基于用户标签的图像哈希学习方法
  使用用户标记的图像来学习哈希映射函数不仅可以获得大量的深度哈希模型训练数据,而且用户标记数据具有丰富的语义信息,有助于更好地描述图像之间的相似关系。然而,标记数据存在噪声、模糊性和不完整性。针对这一问题,本文提出了一种针对用户弱标注标签的弱监督深度哈希学习框架。这一框架包括两个主要阶段:弱监督预训练和有监督微调。在第一阶段,框架没有直接将标签作为监督数据,而是为每个图像标签引入一个语义嵌入向量,并同时进行哈希和语义嵌入向量的学习。通过将多个相似一致性引入学习目标,可以有效解决语义缺失问题,学习出数据中蕴含的语义分布,准确表达视觉的语义信息。所提出的框架不依赖于特定的深度哈希方法,具有较好的扩展性。在实际数据集上的实验结果表明,当它与一些深度哈希方法相结合时,性能提高了8-10%。
  (2)研究基于用户标签和图像显著性区域的深度哈希学习方法
  针对由于用户标签掺杂了大量与检索目标无关的背景信息而导致的深度网络提取的图像特征对检索目标的描述度不足这一问题,本文提出了一种基于提取显著性区域的网络标签的深度学习图像检索方法。首先,对网络标签进行粗过滤,剔除与图像视觉内容无关的噪声标签;其次,提取图像的显著性区域,向量化网络标签,确定每个显著性区域对应的标签向量;然后,根据标签向量是否相同确定显著性区域图像的三元组作为深度网络的输入,优化VGG16网络结构,通过三元组目标函数来指导深度网络对图像区域的表示学习,生成具有强表达能力的图像区域深层特征;最后,通过距离函数比较待检图像与图像库中图像的相似度,得出相似图像。在NUS-WIDE数据集上的实验结果表明,本文方法能够有效地增强图像特征的表达能力,提高图像检索的准确率,优于当前主流方法。
  (3)研究结合不准确标注信息和兴趣目标检测的结构化哈希学习方法
  人类在进行视觉检索时,通常只是对视觉数据中的某些区域和物体感兴趣,如果能提取这些感兴趣区域(RegionofInterest,ROI)来描述视觉内容,不仅可以提供更丰富的检索方式,也可能在一定程度上克服语义鸿沟。传统的有监督兴趣目标检测方法通常需要在训练数据集中标定目标区域甚至像素级位置。这种方式不仅代价昂贵,更难以推广到社交媒体中的海量视觉媒体数据上。因此,本文设计了一种兴趣目标提取和哈希学习的联合模型,有机结合目标检测和目标哈希学习。该模型从深度学习的多尺度卷积神经网络特征图(近似表示输入图像中的不同大小的子区域)中提取候选目标,采用图像级别人工标注信息对兴趣目标提取模型进行弱监督训练,并且在统一的深度学习框架下,寻找最优的哈希函数,使得语义相似/不相似的视觉目标具有相近/相远的哈希编码。最后,依托目标区域的尺度、位置关系,建立结构化的哈希表示,为多样性的检索方式提供支撑。
  (4)研究基于不准确标注信息预训练的图像哈希检索框架,并应用该框架解决面瘫分级问题
  在实际的视觉检索任务中,某些情况下带有准确标注信息的数据相对较少,导致难以训练获得最优网络模型;而对于具有大数据量的与当前视觉检索任务相关的其他数据集,其标注信息与当前任务非直接相关。针对这一情况,我们可以利用其他相关数据集对用于当前任务的网络模型进行预训练,获得初始网络模型,然后再利用直接相关数据进行模型调优。此外,基于排序检索的分类方法能够更好地处理一些传统分类任务中存在不同类间的模糊性问题。为此,我们研究基于不准确标注信息预训练的图像哈希检索框架,并应用于分类问题。而面瘫分级评估就是一个典型的需要这种检索框架的具体应用实例。因此,本文以面瘫分级评估为例,针对在利用计算机视觉技术进行面瘫分级评估方法研究的过程中存在面瘫图像或视频数据量相对较少,以及基于分类的面瘫分级评估方法难以处理面瘫严重程度划分存在的模糊性等问题,提出利用表情数据和弱监督深度哈希网络模型进行面瘫分级评估的方法。该方法利用人脸表情数据库对深度网络模型进行预训练,然后再利用面瘫数据进行参数调优,最后基于图像搜索的方法对测试图像进行面瘫的分级评估。在利用面瘫数据进行模型训练的过程中,在最后的全连接层学习图像未二值化的哈希编码,以降低特征参数的维度和复杂度,达到降低图像搜索计算复杂度的目的。实验结果表明,相对传统的面瘫分级评估方法,提出方法性能有较大程度提升,且相对于利用现有的卷积神经网络进行图像分类的面瘫分级评估方法,本文方法在各项评价指标上都普遍具有优势。
其他文献
运动目标检测和跟踪技术是机器视觉的热门方向之一,是在图形处理的基础上慢慢形成和发展起来的。在无人机、空空导弹等目标检测和跟踪领域具有极其重要的作用和需求;在行人车辆检测跟踪上也有着广泛应用。在这些应用场景中,ARM嵌入式设备相比FPGA有功耗低、易集成开发、成本低和程序易移植等优点。克服移动目标检测和跟踪时所遇到的背景更新、背景干扰、目标尺度变化和目标遮挡等问题,并在嵌入式设备上进行准确稳定的实验
学位
无线携能通信同时传输信息和能量信号,提高了频谱效率和能量利用率,越来越受到学术界和工业界的关注。无线携能传输使得有限电池能量供应的移动设备能同时解码信息和收集能量,这将极大提升移动设备的性能和应用范围。随着无线传感器和无线发射接收机变得越来越小和更加高能效,无线携能通信技术有望广泛应用于分布式的移动终端设计。  由于无线信道的开放性,无线携能通信可变、可控的覆盖范围,可以相应地改变发信者、收信者、
随着新课程改革和美育的发展,音乐教师作为学校美育教育的中坚力量,专业化要求越来越高,音乐教师的专业化发展对于学校音乐教育的发展有着极其重要的意义。乡镇音乐教育一直是我国基础教育中的薄弱点,乡镇音乐教师的专业化发展,是一个具有重大意义的研究课题,对促进乡镇音乐教育的发展影响深远。《教师专业标准(试行)》中将教师的专业化明确为教师的专业理念与师德、专业知识、专业能力三个维度的专业化,本研究以汉寿县2乡
图像描述是图像识别和自然语言处理相结合的方向之一,图像描述的研究非常具有现实意义,它是机器人进一步拟人化的关键,为机器人记忆与感情方面提供了研究基础。另一方面图像描述可以帮助有视觉障碍的人士理解报纸、说明书、地图软件等有关图像的内容,也可以利用在早教育儿和医疗保健中,代替人工看护和繁琐的重复任务。但是目前大多数图像描述的研究从整体结构出发,导致丢失图像部分对象,并且现有的图像描述中仅注重对象描述,
学位
随着能源消耗的快速增长,加之传统能源储备的有限,风能作为一种经济、环保、清洁的可再生新能源,发展迅速,受到了学术界和工程界的广泛关注。由于风速的随机性,间歇性和不稳定性,大规模风电并网将对电力系统产生巨大的影响,严重影响了电网的稳定性。因此,提出一种准确、有效的风速预测方法非常重要。有效的风速预测方法不仅能够帮助调度人员对电能进行可靠的管理、调控与转换,而且对维护电力系统的稳定性具有重要意义。近年
火灾给人们的生产生活带来了巨大的损失,目前比较成熟的火灾探测方法主要运用感温式、感烟式、感光式传感器。但对于室内大空间、危化品、高温水汽严重的场所,传统的烟感、温感火灾探测器受其原理的局限,无法满足实际误报率的要求,而基于后台服务器监测的视频火灾检测系统,受网络架构和成本的影响,难以大面积的覆盖。  本文研究了一种基于嵌入式的图像型火灾探测系统,系统由嵌入式视频火灾探测器和B/S架构的火焰监控平台
学位
随着无人机的快速发展,无人飞艇以其带载能力强、续航时间长等优点,被广泛地应用于军事侦察、民用救灾或者地质勘探中。本课题利用无人飞艇搭载的地面目标定位跟踪系统,在监控范围内对可疑目标进行实时跟踪和定位,获取移动目标坐标值,在战时或突发事件发生时为后方监控指挥中心提供准确可靠的现场信息,以便进一步决策。  本课题以无人飞艇为背景,依靠图像传感器及其自身的北斗导航系统,对地面目标定位跟踪系统进行了深入地
学位
近年来越来越多的学者都投身于机动目标跟踪的研究中,如今单机动目标跟踪技术已广泛应用于许多领域,尤其在军事领域和民用领域发挥着重要的影响。但是随着跟踪目标个数的增多以及目标跟踪环境的复杂性增强,对多机动目标跟踪以及非线性滤波技术的研究也具有重要的现实意义,因此本文针对非线性环境下的多机动目标跟踪技术展开了算法研究。为了将目标与航迹产生关联以精确的捕获机动目标的航迹信息,本文使用标签多伯努利(LMB)
学位
视频监控在国土安防、海防、民用等领域有着广泛应用。然而,以摄像机为核心的视频监控系统普遍存在着监控范围小、监视盲区多、目标定位跟踪困难等问题,显然不能满足现代安防监控的智能化需求。为了实现对视频监控目标的实时定位和跟踪,论文结合雷达系统抗干扰能力强、监测范围广的特点,设计并实现了雷达引导的具有自动发现目标和智能定位跟踪能力的视频联动监控系统。论文首先建立了雷达引导的视频联动监控模型,并在此基础上提
学位
随着互联网技术的不断发展,大数据时代也随之到来。大数据作为一门新兴技术,其应用广泛,涉及数理学科、信息科学、管理科学、医药科学、人文科学等众多不同的研究领域。在电子商务方面,如今许多电子商务缺乏数据应用及创造价值的意识,在电商数据技术使用上也缺少理论依据和方法支持,导致无法应用电商大数据创造经济价值。  本文是在大数据背景下,以我国电商企业中的品牌为研究对象,收集大量有关电商研究文献,参考其他领域
学位