论文部分内容阅读
行人重识别是计算机视觉、机器学习、人工智能等领域的重点研究方向。该方向的主要任务是,在无重叠视域的多摄像机监控系统中,给定一个摄像机拍摄的某行人的图像或视频,根据行人外观从其它摄像机拍摄的图像或视频中重新识别出该行人。行人重识别技术的研究成果广泛应用于智能视频监控和智能安保等领域。然而,在实际环境中,由于光照变化、视角改变、姿态差异、遮挡等复杂干扰的影响,导致同一行人在不同监控视频中的外观差异很大,仍然存在诸多亟待解决的问题:(1)在特征提取阶段和距离度量阶段无法完全消除各类复杂干扰的影响,如何通过改进行人匹配过程来减少复杂干扰的影响。(2)如何通过关注和比较一系列显著区域来提高重识别精度,同时有利于减少遮挡和杂乱背景的影响。(3)拍摄视角不同和姿态变化会导致图像对的空间不对齐问题,如何通过学习自适应局部区域对齐过程,减少不对齐问题的影响。(4)在实际应用中大量标记成对样本耗时耗力,如何在完全未标注样本的场景中,有效实现无监督行人重识别。针对上述四个问题,本文提出了相应的解决方法,它们的主要贡献总结如下:(1)为解决复杂干扰问题,本文提出了基于最优化组织多相似度度量的行人重识别方法。首先提出一种视觉状况一致性评估方法,用来评估图像对和部件对的视觉状况差异。然后,将原始训练集划分为行人整体和多个人体部件的训练子集,并基于视觉状况一致性评估将每个训练子集划分为三个子类,在每个子类中采用多种相似度度量方法进行训练,最终学习到特定视觉一致性条件下特定人体部件的最优相似度度量。在测试阶段,对于任意输入图像对,该方法能够根据图像对在整体和部件的视觉状况一致性评估结果,自适应地选择多相似度度量方法并优化组织它们来执行行人匹配。实验表明,该方法通过有区分地对待具有不同视觉状况的图像对来改进匹配过程,能够有效减少各类复杂干扰的影响。(2)为充分利用显著区域序列在行人匹配中的重要性,本文提出了基于视觉共同注意力机制的回复式行人重识别方法。首先,该方法旨在模拟人类在比较和匹配行人图像对时的眼跳机制,利用基于循环神经网络的强化学习系统,将视觉共同注意力机制的建模问题,转化为强化学习智能体与图像对进行动态交互的序列决策问题。然后,智能体关注图像对相同位置的显著区域序列,每个时刻的关注区域由上一时刻的关注信息决定,并通过奖励函数的奖励或惩罚来优化关注序列。最后,利用联合特征来学习智能体的识别行为和三元组排序行为。实验表明,该方法能够根据图像对自身特性,自适应地关注图像对的显著区域序列,有效减少遮挡和杂乱背景的干扰。(3)为解决行人图像对的不对齐问题,本文提出了基于空间对齐学习匹配网络的行人重识别方法,将局部序列特征学习和空间对齐学习结合到一个端到端的框架中。首先,采用卷积神经网络提取序列的局部区域特征,并通过循环神经网络来记忆局部序列特征。然后,提出了一个空间对齐网络来执行图像对局部序列区域的对齐学习。该对齐网络不仅可以通过学习定位策略来决定在每个时间步关注其中一张图像特定区域的特定特征信息,还可以通过该图像和另一图像的局部区域内部特征表达交互而自适应地搜寻到另一图像的对应局部区域。最后,重复上述局部对齐过程,并将最终时刻的内部特征表达输入到损失函数从而更新网络。实验表明,对于具有不同对齐问题的行人图像对,该方法能够自适应地进行局部区域的空间对齐学习,有效减少空间不对齐问题的影响。(4)为解决监控数据增长带来的样本标注问题,本文提出了基于多层次语义特征聚类的无监督行人重识别方法,不仅将特征学习和图像聚类学习结合到一个端到端的深度框架中,而且充分利用了不同层次的抽象语义特征对于图像匹配的互补线索。首先,该方法将每张图像视为单独的簇并以簇类别为监督信号,通过卷积神经网络(CNN)提取行人图像的多层次语义特征。然后,通过聚类规则将相似的簇合并为新簇,再将新簇类别作为下一轮CNN训练的监督信号,用以学习更具有识别力的图像特征。最后,迭代上述特征提取和图像聚类两个步骤,并利用逻辑斯谛目标函数引导特征学习和图像聚类在优化过程中相互促进,直到聚类过程收敛,该目标函数使得类间样本尽量远离、类内样本尽量聚集。实验验证了该无监督方法的有效性,能够在没有标注样本指引时,利用图像内在的类内几何关系,提取行人图像具有识别力的多层次语义特征。综上所述,本文通过对行人重识别任务面临的技术瓶颈进行深入分析,从解决不同问题的角度出发,进行了优化组织多相似度度量、自适应关注显著区域序列、局部空间对齐学习、基于聚类的无监督学习等方法的研究,有利于行人重识别领域的发展,具有一定的理论意义与应用价值。