融合注意力机制和物体位置约束的多标签图像哈希检索

来源 :重庆大学 | 被引量 : 0次 | 上传用户:shi0206lei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模图像检索任务通常被抽象为近似最近邻搜索问题(Approximate Nearest Neighbor Search,ANN),哈希方法作为ANN的代表方法,被广泛应用于图像检索任务中。近年来,基于深度神经网络良好的特征提取能力,一系列深度哈希方法被提出,也使基于深度哈希的多标签图像检索方法成为新的研究方向。
  本文聚焦多标签图像的深度哈希检索任务,着力解决其存在的多标签图像相似度的精确度量、图像代表性语义信息的提取、哈希码汉明距离与原始图像相似度的一致性保留3个难题,提出一种融合注意力机制和物体位置约束的多标签图像哈希检索框架(Attention-Aware joint Location Constraint Hashing for Multi-Label Image Retrieval,ALCH),从多标签图像相似度度量、图像特征提取以及哈希网络训练3个方面展开研究,具体的创新点及研究成果如下:
  ①本文提出一种融合物体位置约束的相似度度量方法(Label joint Location Constraint Similarity,LLCS),用于度量多标签图像的相似度。LLCS在标签相似度的基础上,通过计算图像中多物体位置关系的相似度作为辅助信息,对标签相似度进行修正,从而对多标签图像的相似度进行更细致的区分。利用更精确的图像相似度矩阵作为训练哈希网络的监督信息,提高哈希检索的准确性;
  ②本文以深度网络模型GoogLeNet作为特征提取的基础网络,并在此基础上基于注意力机制设计了一组包含两层卷积层的注意力子网络,用于进一步提取图像特征。通过对图像原始特征图进行空间和通道上的加权,突出与检索任务更相关的特征子集,进而得到更具语义代表性的图像特征表示,用于哈希网络的训练;
  ③在训练哈希网络时,本文对原始sigmoid函数的非线性范围进行校正,得到对哈希码汉明距离更加敏感的Re-sigmoid函数。通过Re-sigmoid函数对哈希码汉明距离进行归一化,使图像在汉明空间内的相似度与其在原始空间内的相似度尽可能保持一致。本文在VOC2007、VOC2012和NUS-WIDE三个公开数据集上完成了4种不同位数哈希码的检索任务,并使用4种通用的信息检索评价指标对模型的检索结果进行了评估。实验结果表明,与8个主流的哈希检索方法相比,ALCH检索方法得到了更高的指标得分。
其他文献
语义分割旨在对图片所有像素点进行类别标记,随着深度学习与高精标记数据集的快速发展,该视觉任务取得了重大进展。然而,繁琐耗时的人工标记成本极大限制了样本数量与识别类别种类,阻碍了语义分割的实际应用。因此,近几年基于弱监督的语义分割得到了广泛关注。给定图片级别的类别标签(即只标明图片含有的类别),CAM(类别响应图,ClassActivationMaps)常用于初始图片分割(也称初始种子),其分割区域通常集中于小且稀疏的显著判别域,而非完整的物体对象。为了提升分割性能,本文着眼于初始种子的区域扩张。
 
频发的自然灾害对人类社会造成了巨大的损失。随着人类社会的快速发展,人们在抗灾救灾方面的意识也越来越强烈,关于应急管理的政策和研究也受到了广泛的关注。面对难以预测的自然灾害,最高效的应急管理措施就是灾后快速地展开救援活动。而灾后救援活动的首要任务就是为灾民提供安全的应急避难场所和生存所需的资源。因此,立足于自然灾害背景,对灾后应急避难场所选址与资源分配问题进行探索研究具有重要的现实意义。
  基于自然灾害下应急避难场所选址与资源分配问题的特性,针对现有研究的不足,提出了根据灾民的受伤程度将灾民划分为不
滑坡灾害是一种极具破坏性的地质灾害,严重威胁人们的生命财产安全,造成全球生态环境的破坏和资源的浪费。因此,深入对滑坡预测及其控制系统的研究对降低滑坡灾害的影响具有重要意义。
  滑坡演变过程受多种因素影响,具有很强的非线性和不确定性。人工神经网络可以避开复杂的机理分析,建立系统的黑箱模型。本文以三峡库区白水河和石榴树包滑坡为研究对象,将神经网络引入滑坡的预测和控制系统研究中。首先,采用Elman动态神经网络建立滑坡单步预测模型,利用滑坡时间序列数据特点改进BP算法,降低模型训练的时间复杂度,以较高的
传统巴甫洛夫联想记忆实现的学习和遗忘功能,分别对应于经典条件反射中的强化和消退定律。实际上,经典条件反射除了强化和消退定律外,还包含了泛化和分化定律。在传统的巴甫洛夫联想记忆基础之上加入泛化和分化功能,可以更加充分的模拟大脑的联想记忆过程,为类脑系统的进一步发展提供参考。
  本文设计了基于忆阻的联想记忆泛化和分化电路,电路经过最初的联想记忆学习之后可以对某种条件刺激做出反应,然而当相似的条件刺激作用于电路时,电路会做出类似的响应,这就是泛化现象。为了使神经网络电路能够充分的认知这两种相似的刺激并最
由于数字图像数量的快速增长,基于内容的图像检索已成为管理图像数据库的强大工具。但是,随着图像数据库的扩大,图像检索系统对存储和计算资源的需求随之增加。幸运的是,随着云计算的繁荣,中小型企业开始在云平台上构建和维护大型、经济、高效的图像检索系统。尽管云平台提供了便捷的存储、计算和通信服务,但它们带来了新的隐私问题。在加密图像上进行检索是一种保护用户隐私的技术,并且在过去十年中学者们已经进行了广泛的研究。尽管一些方案已经被提出并可以在一定程度上保护用户隐私,但是它们仍然具有一些缺点。首先,在实践中,仅图像的部
近年来,大学生心理健康日益成为高等学校乃至全社会关注的一个问题。在具有心理健康问题的大学生群体中,学校特别关心大学生心理危机个体,即有较高风险罹患心理疾病的大学生个体。这类学生可能会出现严重心理障碍,或者因为心理问题实施自残、伤人甚至自杀行为,从而严重影响学生的学习、生活和人身安全。
  心理量表是目前普遍使用的心理健康检测工具,然而直接使用量表的传统计算方法识别心理危机个体存在许多不足,导致较高的假阳率和假阴率。本文提出了一种基于图神经网络的心理危机个体识别方法,以弥补传统识别方法的不足。本文的主
近年来,移动互联网、边缘计算、物联网等技术的发展和成熟催生了大量新的移动设备和移动应用,如有健康监测功能的可穿戴设备、移动电子商务、网络手游、短视频等。这些新兴的移动应用有着更高的数据存取需求和更大的计算量,同时表现出新的数据存取模式和数据分布特征。小文件随机读写操作占到这类移动应用中数据存取的很大部分,这种大量的细粒度存储需求导致基于块设备建立的移动设备存储系统不足以满足这类应用的存储需求。研究表明,移动设备性能瓶颈由原来的网络和处理器已转为现在的存取能力。新兴的非易失性内存(NVM)具有可字节寻址、高
随着数字图像技术的发展和多媒体应用的普及,图像处理和传输变得越来越重要。人们对图像的传输和存储有了更高的要求,对图像的质量要求也逐渐提高,例如远程医疗、航空航天、多媒体教学和视频安防等领域。图像压缩编码在图像处理中起着至关重要的作用,此对图像压缩的相关技术和科研工作带来了全新的挑战。几乎所有多媒体应用都追求具有更高压缩率,更低计算成本和更好视觉质量的图像压缩技术,这也是图像压缩的三个关键指标。
  JPEG-XR(旧称HD Photo)是一种连续色调静止图像压缩算法,是在2007年由联合图像专家小组
图像检索具有重要的应用价值和研究意义,但也面临检索速度提升、结果排序准确性等诸多现实挑战。哈希技术通过将高维特征映射到低维二值空间,可有效加快距离计算,是目前提升检索速度的重要手段。此外,深度学习能够在一定程度上缓解图像底层视觉信息与高层语义信息之间的“语义鸿沟”。因此,将深度学习和哈希方法结合应用于图像检索具有重要的研究价值和意义。
  本文研究基于深度学习和哈希技术的多标签图像检索,针对目前多标签检索领域存在的3个研究难题,分别对其进行深入研究并提出相应解决策略。本文创新点和主要内容如下:
近年来,大量的研究者对文字、语音以及面部表情做了情感分析的研究。由于人类的情感是非常复杂的,且表达情感的方式也十分多样。所以同时考虑不同模态的特征,对于准确判断情感的倾向来说就显得尤为重要。现如今的研究大多停留在单模态或双模态的情感识别,存在着准确率不高的情况。所以本文为了解决该问题,针对文本、音频、视觉这三个模态进行了多模态情感识别的研究。本文的创新点主要有以下两点,总结如下:
  ①本文提出了一个基于信息增强的多层次上下文多模态情感识别模型IEF-BiGRU。该模型使用了信息增强的方式来放大多模