论文部分内容阅读
人工智能时代,以卷积神经网络为代表的深度学习技术在计算机视觉领域的各项任务中大放异彩。在图像检索方面,基于卷积神经网络的图像表示模型表现十分优异。然而这种优异的表现更多地体现在相似性图像检索任务中,在实例级的图像检索任务中的表现仍缺乏竞争力。实例图像检索任务对技术的要求更为苛刻,也有具有更广泛的应用前景。本文认为深度方法在图像检索方面取得的成果表现平庸的原因主要是存在以下四点问题:1)现有的基于卷积神经网络框架的实例检索系统大多都选择使用已经在ImageNet数据集上预训练好的网络模型来作为特征提取器,然而ImageNet数据集是针对分类(相似性图像检索)任务而设计的,这样学习出的图像特征是用来区分图片的不同语义类别的,这样的特征对于类内的变异具有较强的鲁棒性,但是实例图像检索的任务是去区分特定的对象,而不是两张图片是否属于相同的语义类别。2)不适合实例图像检索的网络结构与训练过程。3)没有充分的利用卷积神经网络模型的学习能力,目前很多方法都只是将卷积神经网络当做一个局部特征提取工具,仍需要进一步对特征进行手工计算得到滤波参数,没有实现端到端的网络模型。4)次优的激活函数,大部分进行实例图像检索的网络模型选用的都是ReLU,PReLU,以及Sigmoid等现有的激活函数,然而这些激活函数也存在着诸多问题,优化的空间很大。本文的研究目的就是通过解决以上提出的目前大多数方法存在的问题,以提高基于卷积神经网络进行实例图像检索的精度。本文的主要工作总结如下:Ⅰ)针对问题1和问题2,本文选用更适用于实例图像检索的基于三元排序损失的三输入流孪生神经网络框架,将本文提出的基于ResNet-50的网络模型在ImageNet上进行预训练,再将预训练好的模型在本文选用的专门针对实例图像检索的数据集上进行微调(fine-tuning),使模型提取的图像特征更适用于实例图像检索。Ⅱ)针对问题3,最近提出的卷积层区域最大激活值特征描述方法R-MAC,非常适合实例图像检索,且其提取的特征对于平移和缩放具有一定的鲁棒性,本文提出将所有组件都可微分的R-MAC集成卷积神经网络模型中,实现端到端的实例图像检索模型,提高了R-MAC的表达能力。Ⅲ)针对问题4,本文提出一种全新的激活函数TReLU,在保留ReLU所有优点的同时,解决了ReLU在训练过程中会出现“死”神经元的现象,并缓解了ReLU输出非0均值的问题,并对TReLU在计算效率方面存在的不足提出了优化方案以进行改进。本文实现的端到端的基于卷积神经网络进行实例图像检索的模型包含了以上全部工作,使用三输入流的孪生神经网络并结合了三元排序损失函数,使用了本文提出的TReLU激活函数,在训练过程结束时生成针对实例图像检索任务的全局图像表示。在Oxford5k,Paris6k,以及Holidays等公开数据集上通过大量实验对本文提出的方法进行了验证,实验结果表明,本文提出的基于卷积神经网络的实例图像检索模型有着较高的检索精度,优于传统的图像检索算法以及空间验证等最先进的方法。