论文部分内容阅读
近几年来行人搜索发展迅速,成为智能视频监控中的关键技术,在视频侦查、行人跟踪以及行为分析等领域发挥着越来越重要的作用。行人搜索的目的是利用计算机视觉技术判断监控图像或视频中是否存在特定行人。早期的行人搜索主要是基于给定的目标图像进行跨摄像头行人再识别,随着研究的深入和应用的逐步拓展,行人搜索发展到可以针对视频环境和开放场景来查找目标,并根据自然语言描述来进行跨模态搜索。行人搜索研究技术也从传统的基于手工特征设计和度量函数学习发展到基于深度神经网络从数据中自动学习特征表示。本文分析了行人搜索不同发展阶段的研究现状,并针对行人搜索技术研究中如何学习更优的排序函数和如何学习判别能力更强的特征等问题展开了深入研究。本文主要贡献如下:(1)提出基于特定样本支持向量机学习和最小二乘半耦合字典学习的行人再识别算法。针对大多行人再识别算法中采用统一相似度排序函数而难以考虑样本独特性问题,本文将行人再识别问题转化为二分类问题,并针对每个行人学习特定样本支持向量机作为其相似度排序函数,不仅使得排序函数能够自适应行人的特征表示,提高模型对不同行人的判别能力,还可以有效强化匹配样本和非匹配样本的相似度差异。接下来,本文提出最小二乘半耦合字典学习来联合学习特征字典、排序函数字典以及特征空间和排序函数空间样本重构系数之间的映射关系,从而使得新的样本可以根据自身特征重构出其相适应排序函数。该算法采用l2-范数替代传统字典学习算法中的l1-范数正则化约束,不仅提高了字典学习和排序函数推断效率,而且可以有效应对行人再识别任务中特征维度高、样本数量少、差异大等情况,进一步提升再识别性能。(2)提出基于深度互学习的行人再识别算法。针对基于深度学习的行人再识别算法对平衡模型效率和准确率的需求,本文提出了简单有效的深度互学习算法,通过与其他网络联合训练来提升深度神经网络的再识别性能。本文为互学习训练中每个网络定义两种损失函数:一种是传统的监督损失函数,用来度量网络预测样本类别与真实标签之间的差异;另一种是网络之间的交互损失函数,用于度量不同网络估计的类别概率分布之间的差异。该算法不仅可以使得每个网络学习如何正确分类样本,还可以使得每个网络在训练过程中借鉴其它网络的学习经验来提升泛化能力,从而学习到判别能力更强的深度行人特征。本文将两个网络深度互学习扩展到多网络互学习场景中,并发现更多同伴网络的学习经验可以进一步提升每个网络的性能。本文还将该算法扩展到半监督学习场景,在标记样本数量较少情况下利用未标记样本的模拟损失约束来提升模型的预测能力。最后,本文对深度互学习算法的作用机制进行了理论分析和实验验证,表明深度互学习算法可以帮助网络找到一个更平缓的极小点,对噪声干扰具有较好的鲁棒性,具备更好的泛化性能。(3)提出基于跨模态投影学习的行人搜索算法。针对基于自然语言描述的跨模态行人搜索任务,本文提出了跨模态投影匹配损失函数和跨模态投影分类损失函数来学习文本和图像的联合特征嵌入。跨模态投影匹配损失函数将文本与图像特征之间的标量投影转化为匹配概率,并通过最小化估计匹配概率分布与真值匹配概率分布之间的KL散度来学习跨模态匹配特征。相较于常用的典型相关分析和双向排序损失函数,该损失函数从概率拟合角度来约束匹配样本相似度大于非匹配样本相似度,利用了批量中所有样本之间的相关性,避免了正负样本选择和超参数调节,且对批量大小变化具有较强的鲁棒性。针对具有类别标签的情况,跨模态投影分类损失函数将跨模态投影策略与归一化分类损失函数相结合,通过分类文本和图像特征之间互相投影后的特征向量来进一步增大类间样本差异,并强化类内不同模态特征的紧密度。