论文部分内容阅读
行人重识别,是对摄像头网络(通常情况下,网络中的摄像头无视域重叠)中的行人进行身份(ID)关联(即将不同摄像头下的同一行人识别成相同ID)。它在智能安防、居家养老、智能交通管理和安全生产监管等领域有着非常重要的应用前景。由于摄像头视角、光照、行人姿态、随身携带的物品、以及相互遮挡等复杂场景条件变化,导致同一行人在不同摄像头下的图片,在视觉上呈现出明显差异。其中,光照条件变化主要导致行人图片在颜色域的畸变(即同一颜色在不同光照下的(R,G,B)颜色值有差异),而摄像头视角、行人姿态以及遮挡等变化,将导致局部特征在空间域的畸变(即在不同图片中,相同身体部位出现在图像空间的不同位置)。为了解决上述问题,行人重识别算法经历了由模型优化(关键在于目标函数设计)到深度卷积神经网络(关键在于网络架构设计)的演进过程。其中,基于模型优化的算法通常采用“特征提取”+“度量学习”的框架,目标是通过优化目标函数,使得特征向着有益于识别的子空间更新。基于深度卷积神经网络设计的算法则是利用“端到端”的网络架构,从大量训练数据中,得到有区分度的特征子空间。本文致力于研究更有区分度的特征和度量空间,分别从传统优化模型设计和深度卷积神经网络设计这两个角度进行了探讨,尝试从不同的角度探索对行人重识别有效的特征和度量方法。本文的研究内容涵盖了行人重识别算法的两个主要分支:基于模型优化的算法和基于深度卷积神经网络的算法。在模型优化的研究部分,我们按照由粗到精(整体到局部),由分阶段优化到联合优化的思路展开。而在模型优化研究中总结的经验技巧,可以转化为领域知识,来指导深度卷积神经网络的设计。本文具体的研究内容总结如下,在基于模型优化的算法研究中,我们首先对粗粒度(基于全局特征)的度量学习算法进行了探讨。由于只需从全局角度进行度量学习,算法简单高效。在这类研究中,我们做了以下两方面的工作。(1)考虑到不同的摄像头对行人外观特征的畸变属性不同,我们提出了核化的视角自适应子空间学习算法,来为不同的摄像头学习相应的特征子空间。具体地,我们通过为不同摄像头学习不同的变换矩阵,来建模不同的摄像头畸变模式,以降低不同畸变模式对行人重识别性能的影响。此外,我们还采用核函数技巧将线性空间的度量学习推广到高维非线性空间,以进一步增强模型的判别能力。(2)考虑到基于全局特征的度量学习算法不能够灵活应对复杂的颜色域、空间域畸变,我们提出了联合样例和特征重要性加权算法,来提高基于全局特征的度量学习算法的灵活性。具体地,我们引入“样例重要性加权”思想,来应对模型训练过程中正负样本对数量不均衡的问题。同时,我们在目标函数中引入了L2,1正则项,来实现“特征重要性加权”。L2,1正则项的引入使得学习得到的变换矩阵的某些行的模值趋于零,这相当于在特征距离计算的过程中,给相应的特征维度分配较低的权值。相应地,对行人重识别比较关键的特征将分配到较大的权值。其中,特征选择还可以一定程度上减轻背景的干扰。由于上述粗粒度的度量学习算法没有显式地进行特征对齐,不能从根本上解决空间域畸变的影响。为此,我们提出从局部特征入手,将行人重识别建模成”局部特征匹配(训练集)+匹配模式迁移(测试集)+局部特征距离融合”的框架。具体地,我们提出了利用图匹配来建立正样本对图片间的局部特征对应关系(此处的对应关系指的是语义上的对应关系,如肩膀对肩膀)。在此基础上,基于人体姿态的相似度,我们将训练正样本对上学习到的局部小块对应关系,迁移到姿态相近的测试样本对上,以实现测试样本对特征距离的计算。通过这种设计,我们能够为每一对测试样本建立准确的小块级的语义对应关系,从而大大降低了视角、姿态等变化对行人重识别性能的影响,很大程度上解决了行人重识别中空间域畸变问题。进一步地,无论是粗粒度的度量学习,还是细粒度的特征对准,都将特征提取和度量学习作为两个级联的模块,二者的优化相互独立。这种二阶式的算法框架,使得我们无法得到整体的最优解。因此,我们进一步对“特征和度量学习”的统一框架进行了研究,以同时获得有利于提高行人重识别性能的最佳特征和度量。具体地,我们提出了“联合字典学习和度量学习”算法,将字典学习推广到马氏距离空间。通过这种设计,特征提取和度量学习模块可以实现联合优化,在交替迭代优化的过程中,达到系统的最优解。所提出的优化目标整体上是非凸的,不能直接求得最优解。因此,我们采用交替迭代优化的思想,并推导出了每次迭代更新的闭式解,大大加快了优化效率。同时,大量的实验结果证明,联合优化的思路能够提高行人重识别的性能。在基于深度卷积神经网络设计的研究方面,我们汲取了模型优化算法研究中的经验技巧来指导网络设计。具体地,受到度量学习中“特征重要性加权”思想的启发,我们提出了“加权双线性编码”模块,来提高卷积神经网络的特征学习能力。在该框架中,我们设计了显著部位检测网络来自动学习到行人的显著性部位,并利用学习到的显著性对不同部位的特征进行重要性加权。此外,为了进一步挖掘不同特征间的相关信息,我们引入双线性编码对加权后的特征进行特征编码。所提出的算法框架能够通过显著性部位来实现粗粒度的对齐,并通过显著性加权来挖掘不同位置特征的重要性。从而大大提高了行人重识别的性能。综上所述,本文的研究工作围绕行人重识别这个具有广泛应用前景的问题展开,着力探讨了以下几个方面的内容:(1)基于全局特征的度量学习算法设计;(2)基于局部特征的图匹配和匹配迁移算法设计;(3)联合字典学习和度量学习算法设计;(4)基于人体显著部位及加权双线性编码的网络架构设计。以上研究内容涵盖了传统的模型优化算法以及深度卷积神经网络算法。按照由粗到精(整体到局部),由分阶段优化到联合优化,以及由底层特征/度量学习到深度特征学习的思路进行展开。其中,基于模型优化的算法和基于深度卷积神经网络的算法在实际应用场景中各有侧重:基于传统优化模型的算法简单高效,适用于标定数据较难获取的小规模场景。而基于卷积神经网络的算法具有更强大的特征学习能力,适用于较大规模标定数据的场景。此外,模型优化算法中得出的经验技巧可以作为领域知识来指导深度卷积神经网络的设计。整个研究形成了一个体系化,层次化的研究框架。在算法层面取得了一定的理论创新,对行人重识别算法在实际场景中的落地起到了一定的推动作用。