论文部分内容阅读
作为视频监控领域的关键应用之一,行人重识别技术能够快速对海量视频进行检索,减轻视频排查人员的负担。行人重识别旨在通过特征匹配来识别出跨摄像头下的目标行人。一方面,姿态、光照、遮挡和分辨率等视觉因素导致行人的外观产生巨大的变化,影响了行人重识别的精度。其中,姿态变化是最大的影响因素之一,针对姿态变化的研究是行人重识别领域的研究热点。然而,行人重识别的数据集缺乏定量的姿态标签,难以消除姿态变化带来的负面影响。另一方面,得益于神经网络的自动特征学习性质,行人重识别逐渐发展成两阶段的识别框架:特征学习和特征匹配。在特征匹配阶段使用重排序算法来检索行人能够提升正确匹配的排名,同时降低错误匹配的排名,因此重排序相关技术的研究对于行人重识别方法具有重要意义。特征匹配阶段通常会向用户返回一个包含成百上千个可能匹配的列表,用户需要手动判断正确的匹配。然而,初始排序列表中错误匹配的排名一般比较高,无法满足实际的需求。为了解决行人重识别中姿态变化以及错误匹配排名较高等问题,本文展开了相关研究,主要工作如下:1.在特征学习阶段,为了缓解姿态变化对行人特征表达的影响,提出了基于多粒度姿态融合的行人重识别模型(Multi-granularity Pose Fusion Net,MGPFNet)。首先,本文将视角划分为前后左右四个类别,并为三个大型行人重识别公开数据集提供了57,651个视角标签。然后,本文构建了基于解耦学习的特征蒸馏网络,将粗粒度的视角和细粒度的姿态关键点融合为多粒度的姿态。模型利用多粒度姿态信息将姿态因子从耦合的行人特征中解离出去,显式地消除姿态变化的影响。在测试阶段,无需输入额外的姿态信息。实验部分从四个方面验证了多粒度姿态融合的有效性,包括可视化生成图像、可视化图像的特征图、可视化排序列表以及与三种类型的行人重识别模型的性能做对比。2.在特征匹配阶段,为了充分利用上下文信息以优化排序列表,本文提出了基于增量式重排序的行人重识别方法(Incremental Re-ranking,IRR)。首先,计算行人图像样本对之间的特征匹配度,得到初始排序列表。其次,利用上下文信息将行人的相似度更新为上下文相似度,其中上下文信息为样本的近邻结构,上下文相似度即近邻结构的相似度。然后,根据新的相似度度量计算样本对的匹配度,得到新的排序列表。最后,继续迭代式地使用更多的上下文信息来更新样本对的相似度,得到最终的排序列表。在实验部分,本文比较了增量式重排序与行人重识别中最优的重排序算法在三个数据集和六种特征上的识别结果,并且可视化了排序列表。实验结果表明增量式重排序方法IRR对排序列表的提升较大。3.在特征匹配阶段,为了挖掘深度特征带来的排序多样性,本文提出了基于深度特征融合重排序的行人重识别方法(Deep Feature Fusion,DFF)。首先,对从全连接层中提取出来的行人特征进行切分,得到多个子特征。其次,分别根据子特征计算样本对之间的相似度,得到多种相似度度量,同时将每个相似度度量建模为一个加权亲和图。然后,利用马尔科夫过程在多个加权亲和图上传播相似度信息,得到融合扩散后的相似度度量。最后,根据新的相似度度量计算样本对之间的匹配度,得到最终的排序列表。实验部分通过比较深度特征融合重排序与其他重排序算法在三个数据集和六种特征上的识别结果,以及对相似度分布进行可视化,验证了深度特征融合重排序方法DFF能够有效提升排序列表的准确度。