论文部分内容阅读
视觉目标识别是计算机视觉和人工智能领域的基础核心问题之一,具有极大的学术价值,同时在人类社会生活的各个方面有着广泛的应用前景和巨大的经济价值。度量学习是实现视觉目标识别的有力途径,通过分析已有的度量学习模型,本文将重点研究传统度量学习框架中的损失函数、重排序后处理技术、深度度量学习框架中的深度网络模型和深度度量损失函数。然后针对不同的视觉目标识别任务,从任务本身的具体特性出发,构建相应的高效度量学习模型。主要工作和贡献如下:1.针对父母与孩子的亲属关系认证任务中由于年龄导致的非对称度量学习问题,从传统度量损失函数出发,提出一种身份敏感投影的度量学习目标函数。采用两个基于不同身份的投影矩阵来分别实现父母与孩子之间重要的人脸特征嵌入,然后基于一种几何度量来构建目标函数,度量人脸图像对的相似性。并且在优化过程中,根据不同的参数安排,两个投影矩阵可以同时学习或者分开学习。在三个常用的亲属关系认证数据集上,基于身份敏感投影的度量学习方法的性能明显优于基于单一投影矩阵的方法。2.针对行人再识别任务中的查询图像集和检索图像库之间严重跨摄像头差异问题,从重排序后处理技术角度出发,提出基于gallery的k-reciprocal-like重排序(GKR)方法来提升度量学习性能。采用图匹配的方式来构建查询图像集与检索图像库之间的匹配对应,然后仅在gallery上计算k-reciprocal-like近邻。另外采用GKR进行非监督的视频行人再识别,可以在训练阶段提升跨摄像头的标签预测,并在测试阶段通过重排序提升性能。实验表明,整合GKR可以显著的提升度量学习的性能。3.针对通用图像检索任务,从深度度量损失函数出发,以损失函数与样本对距离关系为着眼点,将已有的基于样本对的损失函数统一到基于样本对加权损失函数的一般形式:即直接加权样本对距离。主要包括两个方面,样本对挖掘和样本对加权。在该一般形式框架里详细地分析了现有的相关损失函数,并且探索了样本对挖掘和样本对加权的一些策略。基于此一般形式可以从更简单直接的方式去高效地设计损失函数。在三个通用图像检索数据库上的实验表明基于本文提出的损失函数一般形式可以取得比现有的那些损失函数更优秀的性能。4.针对跨域行人再识别任务中的增强判别特征提取能力问题,从深度网络模型改进出发,通过引入注意力机制和整合中间层特征来提升神经网络性能,增强模型的泛化能力。详细讨论了两种注意力机制:远距离依赖注意力和直接生成注意力。在直接采用预训练模型到目标域(数据库)而不采用目标域的信息的方式下,本文方法在三个常用行人再识别数据库上取得了优异的跨域行人再识别结果,甚至优于那些使用目标域信息的方法。5.针对红外-可见光跨模态行人再识别任务中的跨模态差异和模态内的行人变化问题,从深度网络模型改进和损失函数出发,采用双路CNN网络结构、中间层特征整合以及双模态三元组损失函数,来增强判别特征学习。通过这三个简单实用的操作,增强判别特征学习的方法在两个可见光-红外行人数据集上取得了优异的结果,远远好于目前最先进的方法。