论文部分内容阅读
行人重识别这一课题指的是在时间、空间非重叠的监控数据中,检索某一段监控数据中出现的某一个目标人物是否也在其他的监控数据中出现。最近的几年,行人重识别问题引起了深度学习领域的广大科研人员的兴趣,纷纷在这一领域投入大量精力进行研究,并提出了许多优秀的算法。视频监控中的拍摄图像常常具有分辨率低、光照变化较为剧烈、摄像设备视角变化较大、行人的动作和姿态多变等常见问题,这会导致同一行人在不同的视频中具有很大的差异,给行人重识别课题增加了巨大的挑战。此外,学术界中行人重识别任务的视频数据集基本只含有几百个或者一千个左右的行人数据,这对于训练一个效果较好的多帧图像行人重识别深度网络模型是不足够的,不利于神经网络模型分类效果的提高。本篇论文立足于来解决基于视频序列的行人重识别任务,在算法中首先利用卷积神经网络(CNN)和循环神经网络(RNN)设计了一种将序列数据用来训练的深度神经网络。之后以这个深度神经网络作为基础,通过迁移学习的方法提高网络训练的效果,用来解决因训练数据不足而对网络训练造成的不良影响。具体采用的迁移学习方式有两种:基于预训练方式的迁移学习方法以及使用了跨模态对齐模块的迁移学习。本文先设计了基于深度学习思想的行人重识别网络模型。使用包含了三层卷积运算的卷积神经网络对序列数据中的每张行人图像的静态特征进行提取,从局部至整体、从具体至形象地学习提取出图像的具有区分度的特征。之后利用循环神经网络来提取序列化的输入特征的时序信息,用表达能力更强的特征来表征各个视频序列。连接在其后的时域池化层对提取出的特征进行进一步地处理,并输入到损失函数中为反向传播的计算做好准备。在此基础上,针对学术界中视频序列的数据量过少的缺陷,提出了两种基于迁移学习的行人重识别网络结构。第一种方法是利用外部的行人重识别数据对网络结构进行预训练,再使用其他目标数据集对网络参数进行微调。在预训练过程中,网络参数得到了初步的训练,并对下一阶段的训练进行初始化。微调阶段的训练过程由预训练过程进行了很有效的引导,加速了收敛过程,并提高了网络的学习能力。第二种方法是利用单帧图像数据生成了伪序列数据,和真实的视频序列以联合训练的方式进行学习,利用迁移学习将伪序列所在子网络的学习到的知识迁移到真实视频序列所在的子网络中,提升深度神经网络的训练效果。为了消除单帧图像和视频序列之间的不匹配情况,提出了跨模态对齐模块来由单帧图像生成序列数据,为迁移学习的可靠性提供了保证。本文将所提出方法的测试效果与其他一些已公布的优秀算法的结果进行了比较,证明了本文提出的方法的有效性和实用性。