基于卷积神经网络的行人重识别算法研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:qdjmyuzhou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着深度学习的迅速发展,伴随着计算机硬件性能的快速提升,行人重识别在智能监控、智能安保领域扮演着越来越重要的角色,吸引了研究者的广泛关注。相较于过去基于手工设计特征的行人重识别方法,基于卷积神经网络的行人重识别方法从大规模行人图像数据中挖掘信息,具备更好的特征表示能力。很多最近的研究在这一领域取得了一定的成果,但仍存在很多问题需要解决。在行人重识别研究中,按监督级别的不同,可以大致划分为有监督行人重识别、无监督域自适应行人重识别以及无监督行人重识别。为了解决这三种不同监督级别的行人重识别任务中主要面对的问题,在现有的相关研究工作基础上,本文针对这三种监督级别的行人重识别任务分别提出了三种新方法:(1)对于有监督行人重识别任务,提出了一个混合域关系注意力网络,它通过核心的混合域关系注意力模块可以有效地抑制复杂但无用的背景信息,缓解明显的类内方差带来的影响。混合域关系注意力模块显式地利用了全局关系模式来挖掘结构性信息,这对推断判别性的高级语义特征很有帮助。得益于对全局关系模式的挖掘,模型的注意力可以集中在关键的人体区域。在这一注意力机制中,对于每个特征节点,对该节点与其它所有节点的成对关系建模,并将这种关系特征紧凑地堆叠为张量,再结合节点本身的特征,通过一个小模型来推断注意力权重。以这种方式,混合域关系注意力综合利用了局部和全局信息,能够较好地摆脱无用信息的干扰,最终以全局视角权衡特征节点的重要性。(2)对于无监督域自适应行人重识别任务,提出了一种聚类级别的对比学习框架来优化学习无标签目标数据上的耐噪声表示。其主要针对于现有研究的两个局限性:一是在目标域上生成伪标签引入的标签噪声对于模型优化的阻碍;二是源域和目标域差异造成的对知识迁移的阻碍。为了解决这两个问题,提出并集成了三种方法。首先,通过迭代优化特征学习和聚类精炼提出了一种聚类级别的对比学习方法,以无监督的方式学习耐噪声表示。其次,提出了渐进式迁移策略,在训练阶段没有直接进行微调,而是在两个域上采用共享特征编码器的协作学习机制。通过逐步降低源域上的训练权重,同时增加目标域上的训练权重,可以更好地实现从源域到目标域的知识迁移。最后,提出傅里叶增强的方法,通过在傅里叶空间中增加额外约束,以最大化类别间的离散程度。综合了这些方法,模型可以在目标域上学习到更具有判别性的无监督耐噪声表示。(3)对于无监督行人重识别任务,提出了一个基于软标签学习的无监督行人重识别算法,以缓解伪标签噪声对模型训练的不良影响。通过挖掘映射空间中特征向量间的关系,以一种软约束的方式使相似的图片距离更近,用反映图像的相似度的软标签训练特征编码器网络。不同于独热标签迫使图片属于一个特定的类别,软标签可视为一个多个类别上的概率分布。网络的训练目标不仅是预测图片的真实类别,同时也预测其相似的类别。而最终得到的特征映射相似的图像比较接近而不相似的图像有较大的距离。此外,还引入了一些辅助信息来帮助找到相似的图像。在度量图片间的相似程度时,摄像头的编号和行人图像的局部细节也得到利用,提出了跨摄像头激励机制以缓解同一行人图像的跨摄像头差异。综合了全局外观、局部细节和跨摄像头激励,模型在多个公开数据集上有着较好的表现。综上所述,本文提出了三种基于卷积神经网络的行人重识别方法。通过在公开数据集Market1501、CUHK03、Duke MTMC-re ID、MSMT17上的实验验证,本文的方法相对于很多主流方法有优势,具备一定应用价值。
其他文献
随着深度学习技术的迅猛发展,深度神经网络已全面应用到图像质量评价中,并且逐渐占据主导地位。深度神经网络可以自动学习出有用的特征,不再需要繁琐的特征工程,并且在图像质量评价任务上取得了超越其他算法的性能,网络性能的强大得益于精心研究和设计的神经网络结构。设计出高性能的神经网络结构通常需要大量的专业知识与反复试验,成本极高,随着网络结构越来越复杂,神经网络结构的设计,也正在从手工设计转型为机器自动设计
学位
随着智能视频监控的不断发展,行人重识别研究受到了工业界和学术界的广泛关注。行人重识别旨在完成不同相机下相同身份的行人图像关联任务。当前,大部分的研究工作主要关注有监督的场景,即给定的训练数据都拥有身份标签信息。然而,这些方法依赖于大量昂贵的标签数据,并且要求训练和测试数据必须来自相同的相机网络或者相同的数据集。当这些行人重识别模型直接的应用于不同的数据集时,性能将会出现严重的下降。这极大的限制了处
学位
移动边缘计算(Mobile Edge Computing,MEC)作为5G可能的关键性技术基础,通过将服务节点下沉到更接近用户的位置,在网络边缘为用户提供计算、通信与存储服务,从而减少处理任务产生的时延和能耗。考虑到无人机灵活、易部署的特点,可以将它作为移动边缘服务器,为终端设备提供有效的通信覆盖。此外,还可以将它作为供能平台,利用无线充电技术为设备提供任务卸载的能量。然而,环境造成的信号阻塞和阴
学位
文本匹配任务旨在从两段文本中挖掘内在的语义特征,预测文本间相关性或者矛盾性。作为自然语言处理领域最重要的任务之一,文本匹配一直是领域内众多研究们关注的焦点任务。受益于其部署易、响应快、模型小、通用性强等特点,在智能问答、搜索引擎以及手机小助手等领域占据核心地位。但该领域仍然存在一些问题,阻碍着文本匹配进一步的发展。为了提高模型研究的准确率,研究者们提出对文本表征进行交互,加强文本之间的联系性。但是
学位
三维人体姿态估计任务旨在从单目或多目视频图像中预测出准确的三维人体姿态。得益于低成本、高效率、易部署等优点,三维人体姿态估计在虚拟现实、智慧医疗、自动驾驶、人机交互等领域有着广泛的应用前景。作为计算机视觉领域的热门研究课题之一,三维人体姿态估计一直受到业内研究者的广泛关注。但该课题依然面临着诸多问题,限制其进一步的发展。虽然研究者们通过引入时序信息以及多视角信息,提高了算法预测的准确度。但是对于复
学位
命名实体识别(Named Entity Recognition,NER)旨在从非结构化文本中提取出人名、地名、机构名或其他专有名词等类型的实体。其作为自然语言处理领域的基础任务之一,在对话问答、机器翻译、信息检索和知识图谱等各种自然语言处理任务中承担着重要的角色,在许多落地应用中具有关键性作用。近年来,命名实体识别技术虽已趋向成熟,但仍然面临许多挑战,尤其是在中文命名实体识别方向中,字词边界模糊、
学位
针对目前推荐算法存在的问题,本文对社交化推荐场景中的推荐方法进行研究,设计了两个基于图神经网络的社交化推荐算法框架,实现提高召回率、优化排序结果的目的。本文的主要研究内容如下:1.基于多图注意力融合的社交化推荐算法。图神经网络技术在社交化推荐领域中有着广泛的应用。然而,随着扩散深度的增加,它往往会导致过度平滑问题,从而抑制其性能。本文提出了一种基于相似性的多关系注意力网络用于社交化推荐场景。提出的
学位
高分辨率高光谱图像同时具有丰富的空间信息以及丰富的光谱信息。因此,高分辨率高光谱图像在目标检测、识别以及跟踪领域有丰富的应用空间。然而,受囿于当前成像设备性能的不足,我们无法直接获取到高分辨率高光谱图像。而是只能退而求其次,在空间上以及光谱上进行一定的退化,转而对同一取景取得一组低分辨率高光谱图像和高分辨率多光谱图像,再通过一定算法的处理,将这一组图像尽可能重建还原成高质量的高分辨率高光谱图像。这
学位
作为图像理解和计算机视觉的基石,目标检测是解决图像分割、场景理解、目标追踪等任务的基础。现在目标检测算法种类繁多,根据是否包含区域建议网络可以分为两阶段目标检测算法和单阶段目标检测算法。根据是否具有锚框又分为基于锚框的目标检测算法和无锚目标检测算法。虽然现在的目标检测算法在精度和速度上都取得极大提升,但是由于视角的多样性,多尺度变化,遮挡和光照强度等复杂场景的影响,以及模型的泛化能力不足等问题使得
学位
阿尔茨海默症(Alzheimer’s Disease,AD)是一种不可逆的大脑神经退行性疾病,一旦发病就没有治愈的可能。随着我国老龄化程度的加深,阿尔茨海默症患者越来越多,给家庭和社会都带来了沉重的负担。日渐增多的患者,极大地增加了相关领域医生的工作量,而计算机技术飞速发展,使之在医学领域有广泛的应用。近年来深度学习技术蓬勃发展,使得深度学习技术在医疗图像的分类、分割等领域有了广泛的应用。因此利用
学位