论文部分内容阅读
行人重识别最近几年在学术和工业界得到广泛的关注,该方向主要包含基于图片和基于视频的行人重识别两个方向。其主要解决的问题是多个摄像头的场景下行人是否为同一个人。该方向的研究对于在商场中寻找丢失的孩童,或者公安用于侦察罪犯等公共安全问题尤为重要。但是因为光照、遮挡、模糊、行人姿态以及相机视角等因素的影响,使得同一个行人在不同的摄像头下存在着很大的变化。本文主要从视频角度来解决该问题。基于视频的行人重识别每个人在摄像头下都是一个序列,采用视频序列可以获取到更加丰富的时空信息。首先,本文从特征表达方向考虑。特征表达是通过学习判别性的特征来区分不同的行人。不同于静态图片只有空间信息,视频序列还具有时序信息。本文利用姿态估计的方法获取行人的关节点,通过脚踝的关节点,可以重新合成行人的高质量行走周期。同时为了获取空间信息,利用姿态关节点将行人划分为各个局部区域,提取局部特征,最后将行走周期的多张图片特征拼接为最终的时空特征。最终的实验结果证明提出的时空特征能够在视频序列上取得很好的效果。其次,本文从度量学习角度考虑。度量学习是学习判别性的度量矩阵来区分不同的行人。针对之前提取到的时空特征,考虑到不同的姿态具有不同的时序信息,在度量学习过程中加入姿态约束。根据提取的特征,对应的姿态应该是一样的,在相似性计算中只计算对应姿态的距离,最后将行走周期中多个姿态的距离相加,作为最后的相似性。同时为了佐证算法思想的合理性,本文利用动态时间规整算法来计算两个序列的距离,得到两个序列的规整路径。最后的实验结果证明该方法是目前非深度学习方法中效果最好的。最后,本文也在深度学习方法上探索基于视频的行人重识别问题。在视频行人重识别领域采用时序模型提取时序信息和利用注意力机制预测图片质量是两种常用方法。因此本文结合这两种方法提出基于时序注意力机制的深度网络。首先给出一个时序模块,利用先前帧信息来提高当前帧的特征表达,接着设计一种注意力机制模型来为序列中各帧质量打分,最后通过加权融合得到各个序列的最终特征。最后的实验结果证明提出来的时序注意力模型能够在视频行人重识别中取得优异的表现。本文主要是针对基于视频的行人重识别开展研究,通过利用视频更加丰富的信息,来提高行人重识别的精确度,该研究的成果对于公共安全具有重要的意义。