论文部分内容阅读
近年来在建设平安城市和构建智慧安防的浪潮下,行人重识别作为智能视频分析的关键技术得到迅猛发展,并在视频侦查、智慧安防和智能商业等领域发挥着广泛的应用前景和重要的商业价值。行人重识别任务是建立在跨摄像机场景下,目的是查找不同视角下和查询行人匹配的相关行人。早期的行人重识别是基于静止图片进行,随着技术的发展和应用的需求,行人重识别类型开始向基于视频序列、开放场景、跨模态等方向发展。由于不同视角下行人存在显著的光照差异、姿态变化和干扰遮挡,同时行人检测的不准确性进一步加大了任务的难度,使得行人重识别具有很大的挑战性。为了应对这些挑战,设计鲁棒的手工特征、学习合适的特征变换、训练判别的度量函数或者利用神经网络从数据中自动挖掘强大的特征表示是提升不同类型的行人重识别性能的关键。本文分析了行人重识别不同发展阶段的研究现状,围绕如何学习最优的特征变换和利用深度神经网络学习判别性的特征表示展开了深入研究。本文主要工作和贡献如下:(1)提出基于跨视角语义投影学习的图像行人重识别算法。针对传统行人重识别算法多数聚焦在手工特征设计和距离度量学习,忽视特征变换学习的重要性,本文提出简单有效的基于跨视角语义投影学习的特征变换算法。具体地,算法基于隐语义空间共享基矩阵学习手工特征的语义表示,建立跨视角间语义表示的关联映射,推断视角特定的语义投影矩阵。测试阶段,将测试样本和对应视角投影矩阵相乘即可得到语义表示。同时,本文将跨视角语义投影学习扩展到多视角语义投影学习中,发现利用更多视角间的相关性可以学习到更好的语义结构,提升模型性能。实验结果表明,学习手工特征的语义表示可以显著的增强特征的表达能力,提升查询的精度,有效的应对跨视角间光照差异性、姿态变化等导致的行人外观变化问题。(2)提出基于时序残差学习的视频行人重识别算法。针对视频序列中行人空间未对齐和如何有效利用视频序列中时间结构信息问题,本文基于卷积神经网络-循环神经网络模型架构,提出时空变换网络模块和时序残差学习模块。具体地,模型的卷积神经网络部分提出时空变换网络模块,该模块可以利用来自视频序列其他帧的时间上下文知识预测当前帧空间变换参数对齐行人序列。模型的循环神经网络部分提出时序差学习模块,该模块用两个双向循环结构单元来提取视频序列的通用特征和特性特征,互补特征相加的结果作为增强的视频序列特征。实验结果表明,本文所提的时空变换网络模块通过利用视频序列的时间上下文信息,可以实现平滑的对齐视频序列中前后帧行人,时间残差学习模块提取的通用特征和特性特征可以从不同方面描述行人,获得更丰富的视频特征表示。(3)提出基于动态入侵在线实例匹配的行人搜索算法。针对基于开放场景行人搜索任务中行人无边界框、标记行人样本少且存在大量未标记行人问题,本文提出无参的基于动态入侵在线实例匹配的端到端算法。具体地,算法在目标检测的框架下联合优化行人检测和行人重识别任务。为了有效训练行人识别部分,算法提出动态入侵在线实例匹配损失利用场景图像中未标记的行人。基于出现在同一场景中行人肯定具有不同身份的观察事实,给未标记的行人赋予伪标签,因此伪标记行人和标记的行人可以一起用来优化行人识别分类。实验结果表明,联合优化行人检测和行人重识别对两个任务的性能都有显著的提升,无参损失算法相比传统分类器可以直接优化特征,学习区分性更好的特征。对比同时期利用未标记行人模型,动态入侵在线实例匹配采用最小的额外内存空间,但取得最好的搜索性能。