论文部分内容阅读
大规模图像检索任务通常被抽象为近似最近邻搜索问题(Approximate Nearest Neighbor Search,ANN),哈希方法作为ANN的代表方法,被广泛应用于图像检索任务中。近年来,基于深度神经网络良好的特征提取能力,一系列深度哈希方法被提出,也使基于深度哈希的多标签图像检索方法成为新的研究方向。
本文聚焦多标签图像的深度哈希检索任务,着力解决其存在的多标签图像相似度的精确度量、图像代表性语义信息的提取、哈希码汉明距离与原始图像相似度的一致性保留3个难题,提出一种融合注意力机制和物体位置约束的多标签图像哈希检索框架(Attention-Aware joint Location Constraint Hashing for Multi-Label Image Retrieval,ALCH),从多标签图像相似度度量、图像特征提取以及哈希网络训练3个方面展开研究,具体的创新点及研究成果如下:
①本文提出一种融合物体位置约束的相似度度量方法(Label joint Location Constraint Similarity,LLCS),用于度量多标签图像的相似度。LLCS在标签相似度的基础上,通过计算图像中多物体位置关系的相似度作为辅助信息,对标签相似度进行修正,从而对多标签图像的相似度进行更细致的区分。利用更精确的图像相似度矩阵作为训练哈希网络的监督信息,提高哈希检索的准确性;
②本文以深度网络模型GoogLeNet作为特征提取的基础网络,并在此基础上基于注意力机制设计了一组包含两层卷积层的注意力子网络,用于进一步提取图像特征。通过对图像原始特征图进行空间和通道上的加权,突出与检索任务更相关的特征子集,进而得到更具语义代表性的图像特征表示,用于哈希网络的训练;
③在训练哈希网络时,本文对原始sigmoid函数的非线性范围进行校正,得到对哈希码汉明距离更加敏感的Re-sigmoid函数。通过Re-sigmoid函数对哈希码汉明距离进行归一化,使图像在汉明空间内的相似度与其在原始空间内的相似度尽可能保持一致。本文在VOC2007、VOC2012和NUS-WIDE三个公开数据集上完成了4种不同位数哈希码的检索任务,并使用4种通用的信息检索评价指标对模型的检索结果进行了评估。实验结果表明,与8个主流的哈希检索方法相比,ALCH检索方法得到了更高的指标得分。
本文聚焦多标签图像的深度哈希检索任务,着力解决其存在的多标签图像相似度的精确度量、图像代表性语义信息的提取、哈希码汉明距离与原始图像相似度的一致性保留3个难题,提出一种融合注意力机制和物体位置约束的多标签图像哈希检索框架(Attention-Aware joint Location Constraint Hashing for Multi-Label Image Retrieval,ALCH),从多标签图像相似度度量、图像特征提取以及哈希网络训练3个方面展开研究,具体的创新点及研究成果如下:
①本文提出一种融合物体位置约束的相似度度量方法(Label joint Location Constraint Similarity,LLCS),用于度量多标签图像的相似度。LLCS在标签相似度的基础上,通过计算图像中多物体位置关系的相似度作为辅助信息,对标签相似度进行修正,从而对多标签图像的相似度进行更细致的区分。利用更精确的图像相似度矩阵作为训练哈希网络的监督信息,提高哈希检索的准确性;
②本文以深度网络模型GoogLeNet作为特征提取的基础网络,并在此基础上基于注意力机制设计了一组包含两层卷积层的注意力子网络,用于进一步提取图像特征。通过对图像原始特征图进行空间和通道上的加权,突出与检索任务更相关的特征子集,进而得到更具语义代表性的图像特征表示,用于哈希网络的训练;
③在训练哈希网络时,本文对原始sigmoid函数的非线性范围进行校正,得到对哈希码汉明距离更加敏感的Re-sigmoid函数。通过Re-sigmoid函数对哈希码汉明距离进行归一化,使图像在汉明空间内的相似度与其在原始空间内的相似度尽可能保持一致。本文在VOC2007、VOC2012和NUS-WIDE三个公开数据集上完成了4种不同位数哈希码的检索任务,并使用4种通用的信息检索评价指标对模型的检索结果进行了评估。实验结果表明,与8个主流的哈希检索方法相比,ALCH检索方法得到了更高的指标得分。