论文部分内容阅读
近些年来,随着深度学习理论的日益完善和硬件设备计算力的飞速提升,计算机视觉领域也取得了长足的发展,很多技术被广泛地应用到工业界和现实生活中去,带来了巨大的经济效益和生活便利。其中,行人重试别(Person Re-Identification)作为计算机视觉领域的一个重要分支,它指的是在图片库中找到与问询图片身份相同的行人,在安防、视频监控、图片检索等许多领域都有着广泛的应用前景。但是,行人重识别任务需要手动地截取图片中的行人框,这给它在真实场景下得到应用和部署带来了很大的局限性。因此,有人提出在行人重识别系统前单独添加一个行人检测系统以减少人力成本,但这种两阶段的系统往往会导致更大的时间消耗,影响实时性。在这种情况下,人们开始将更多的目光放在行人检索任务上,旨在能够自动实现行人框的检测,同时完成身份的匹配。与行人再识别相比,行人检索更加快捷和高效,更符合真实场景的应用条件。在检测行人的过程中,不可避免地会引入一些位置的偏差。此外,考虑到检测出的行人框尺寸不一,框内背景信息繁杂,有的甚至会出现比较严重的遮挡情况,行人检索一直是一个非常具有挑战性的任务。在之前关于行人检索的工作中,以上干扰因素大多没有得到很好的解决。因此,本论文提出了一个基于深度学习的端到端的行人检索网络——多层次协同注意力行人检索网络(Multilvel Collaborative Attention Network,MCAN),效地地解决了以上几个问题。本文的贡献主要包括:1.针对自然条件下行人框尺寸不一的情况,本文引入了一个多层次学习策略。对于不同尺寸的行人,通过特征金字塔网络(FPN)来选取不同分辨率的特征以保证具有合适的语义强度。2.为了解决行人框位置偏差、背景噪声和遮挡的问题,本文提出了一个协同注意力学习模块,可以进一拆分为两个子模块:区域注意力学习模块(Hard Regional Attention)和像素级注意力学习模块(Soft Pixel-Wise Attention)。其中区域注意力学习模块利用人体关节点检测,将人体划分为头部、躯干部和下肢三个区域进而分别提取特征。像素级注意力学习模块旨在在像素级别上提取人体最显著的特征,它将空间注意力和通道注意力学习单元有效地结合在一起,大大减少了参数数量和计算量。3.本文提出了一种基于难样本挖掘的随机取样指数归一化(Online Hard Mined Random Sampling Softmax,OHMRSS)损失函数,它一方面改善了行人重识别的效果,另一方面能够加快网络在训练时的收敛速度。针对上述提出的算法,本论文在PRW和CUHK-SYSU两个数据集上进行了丰富的实验。实验结果表明,本论文提出的算法在PRW数据集上取得了当前最高的准确率,虽然在c UHK-SYSU数据集上与当前学术界最好的结果有一点差距,但进一步的实验证明了本文提出算法的有效性。