论文部分内容阅读
行人重识别指的是,采用计算机视觉的技术,判断在视角不重叠的区域内不同摄像头捕捉到的行人图像是否来自同一个行人的过程。由于行人重识别中用于训练的数据集需要跨多个摄像头获取实验样本,摄像头之间的内在差异性导致人工标注的方式效率低且难度大,无法应用于大规模的数据集,从而限制了行人重识别研究的进一步发展。因此,越来越多的研究者开始关注不需要人工标记(无监督)或者仅需要每个行人一张已标注图像(单样本)的行人重识别研究。本文也将针对这两种任务,分别提出两种不同的算法来解决不充分行人图像标签信息下(无监督和单样本)行人重识别模型的训练问题。对于这两类任务,由于行人图像缺少类别标签信息和成对标签信息,我们无法直接进行基于分类损失和基于三元组损失的训练。因此,两者都需要估计未标注行人图像的标签信息用于模型训练,一般通过计算图像特征之间的相似度进行图像的匹配,进而完成标签的标注。然而,不同的摄像头由于其所处的位置不同导致其拍摄到的行人角度存在差异、行人在不同时间点的姿态变化、光照的因素导致成像的差异等,使同一个行人的成像存在较大的差异(类内差异),甚至大于不同行人间的图像差异(类间差异),这也是行人重识别问题的最大挑战之一。当缺少行人图像标签信息时,类内差异大和类间差异小的内在问题将极大地影响基于行人图像的特征相似度来估计标签的方法。因此,我们在无监督和单样本的任务设置下分别提出两个训练框架来缓解此问题。在前者中,利用聚类同时估计类别标签和成对标签进行多损失联合训练,其中基于成对标签提出同时挖掘可信和困难样本以缓解类内差异和类间差异带来的影响;在后者中,我们融合特征匹配度标签和分类预测度标签来估计行人图像的标签,并使用跨摄像头的图像混合生成来缓解类内差异影响。接下来,我们将分别介绍这两种设置下的具体方法。针对无监督行人重识别问题,我们提出了基于聚类指导的无监督行人重识别算法,旨在充分挖掘和使用无标签图像中的类别标签信息和成对标签信息。具体地,我们将无标签目标数据集和有标签辅助数据集一起进行聚类。一方面,在聚类后产生的样本隶属于某一聚类的信息作为聚类级的分类标签信息,并提出非参数化的1)8)(6分类损失;另一方面,基于聚类里的有标签辅助图像作为参考点来挖掘无标签目标图像的成对标签信息,我们提出可信样本和困难样本挖掘及相应的权重P2S三元组损失。因此,我们通过聚类同时得到无标签图像的两种标签信息,并对应于两个提出的损失函数来联合训练模型。针对单样本行人重识别问题,我们提出基于双层伪标签融合和跨摄像头图像混合生成的行人重识别方法。双层伪标签融合是指同时结合特征匹配度标签和分类预测度标签。前者是指通过无标签图像与每个行人类别原型的特征相似度比较而得到的伪标签。后者是指模型对于无标签图像的预测类别概率。我们同时结合两者来估计无标签图像的伪标签,并采用信息熵的准则,渐进式地选择信息熵最低的部分无标签图像进行标注。跨摄像头图像混合生成是指选择不同摄像头下的同一行人的真实标签图像和伪标签图像进行像素级的线性插值生成行人融合图像。此类融合图像可以缓解同一行人的图像差异大的问题,且有利于网络的训练和学习的平滑。