基于信息交互的单模态及跨模态行人重识别研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:beyondzcy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
安防监控系统不仅能给居民提供安全保障,而且也常用于协助案件侦破。行人重识别(Person Re-identification,Re ID)技术作为计算机视觉领域的热门研究方向,旨在实现跨摄像头下快速自动地行人身份识别及检索,可以显著提高警务人员对监控数据的利用效率。然而监控视频中存在背景干扰强、行人姿态差异大等问题,夜间环境下还会进行红外模式成像,这些因素都给行人重识别带来了挑战。目前,在单模态场景下基于注意力机制的方法精度表现较高,通过自适应的关键区域聚焦可以降低背景干扰。由于未考虑到不同关键区域间的语义信息交互,此类方法会导致提取行人特征不足。在跨模态场景下,多数方法使用推理阶段重排序来改善预测结果,然而忽略了训练过程中不同模态特征的信息关联性,导致特征判别性有限。因此本文从增加信息交互的角度分别展开研究,主要内容如下:1)针对单模态场景本文提出了多样性注意力网络。首先设计了结合自注意力的多分支卷积网络,通过多分支特征融合来更好地集成局部区域关键信息。在此基础上,针对多个注意力分支间倾向于关注较少且重叠度高的局部区域这一问题,进一步设计了多样性约束策略。其利用类激活映射生成显著性热力图,定位各分支所关注的局部区域,通过跨分支掩模叠加使得各分支关注具有多样性的局部特征。在多个分支特征融合后,得到关注行人多个局部区域的强判别性整体特征。2)针对跨模态场景本文提出了高阶关系网络。其结构包括两个部分:多模态特征提取模块、以及高阶关系聚合模块。针对特征提取模块,本文在现有双流结构的基础上增加了两个模态分支,通过融合浅层特征来保留更多模态特有信息。在高阶关系聚合模块中构造了带权二部图结构,利用图卷积网络的信息传播机制融合不同特征间的高阶关系信息。在此基础上进一步设计了高阶关系知识蒸馏策略,将图卷积网络输出的高阶关系知识迁移至浅层特征,进一步提高模型推理性能。在多个开源数据集上的实验表明,本文所提的两类方法均得到了较高的预测精度。
其他文献
互联网用户数的急剧膨胀导致相关数据量激增,由此产生的信息过载问题持续影响着人们的生活。推荐算法可以帮助人们快速从海量信息中获取真正需要的内容,摆脱信息过载并节省信息筛选的成本。在为人们带来便利的同时,推荐算法自身也暴露出了诸多问题。目前推荐算法的改进工作大多以各类型上下文信息构建用户和项目之间的联系,再融入如矩阵分解、深度学习等多种技术,提升算法的预测精准度。针对目前推荐算法中存在的冷启动问题和预
学位
近年来随着人们的生活水平不断提高,人们承受的压力也逐渐增加甚至部分人由此导致了如睡眠质量变差等各种问题。有研究表明合适的音乐可以改善人的睡眠质量,但由于音乐种类众多使得寻找适合自己的音乐也成为一个难题,本文的目标是通过深度学习技术来实现睡眠音乐的自动生成,从而缓解这个难题。本文实现睡眠音乐生成的方法主要包括主旋律提取以及音乐生成两个方面的内容。其中存在许多难点:1)音乐数据不同于普通的序列数据,可
学位
最大团问题(Maximum Clique Problem,简称MCP)是一类NP难问题,有效求解它的精确算法大多数是基于分支定界(Branch-and-Bound,简称B&B)框架的,其中的上界策略对缩小解空间、提高算法效率起着重要作用。目前应用最广泛的是基于图着色的上界,但该上界与最优解之间常常存在一定的差距而导致解空间过大。此外它的时间复杂度总是大于O(n2),当图规模较大时它可能对算法效率产
学位
最近数十年,信息技术尤其是互联网领域相关技术的高速发展,催生出的数据在样本数量与维度上日益庞大。在高维数据中,样本数通常难以均匀覆盖高维空间,这将导致维度灾难,严重损害机器学习算法的性能。特征选择通过从原始特征中挑选部分特征,精简使用特征的数目,避免了样本数与维度严重不相称的情况,已成为数据挖掘领域中常用的预处理技术。近年来,基于进化计算技术的特征选择算法备受关注,这得益于它们优秀的全局搜索能力。
学位
传统的中小学地理教学经常使用地球仪作为辅助教学工具,虽然地球仪能直观的展示相关地理区域,但是由于地球仪本身的限制而无法承载过多的信息,而增强现实(Augmented Reality,AR)技术能够将虚拟信息叠加到现实场景上进行实时交互,将AR技术与地理教学相结合可以使教学内容更加丰富、生动、有趣,能够激发学生的学习兴趣。目标检测算法具有较强的识别物体的能力,将目标检测算法与AR技术相结合,可以提高
学位
随着互联网行业的发展,深度学习技术在各个研究领域得到了广泛的运用,特别是在计算机视觉相关领域。人脸表情识别属于学科交叉的领域范畴,它的研究可以让机器学习人类的情感,有助于提高人机交互的效率,这一技术可以推广到医疗、交通、教育等不同的日常情景。但表情识别的准确率容易受表情图像中光线、角度、细节等因素影响。因此,为进一步提升表情识别网络模型的性能,本文共分三个方面对表情识别深度网络进行改进,主要工作包
学位
人脸表情识别作为情感计算重要的组成部分,在公共安全、智慧交通和医疗康复等领域有着巨大的应用前景。在过去的几年里,数据驱动的深度神经网络虽然将人脸表情识别准确率提高到了新层次,但是仍面临以下两个关键性难点:(1)头部的偏转造成了面部遮挡和配准误差,导致识别准确率再向上提升变得异常困难,并且难以运用到实际场景中;(2)现有数据集中存在一些不确定性表情样本,这些样本造成提取出的特征有害。为了解决以上问题
学位
近年来,基于相空间重构(Phase-Space Reconstruction,PSR)的时间序列图像化方法因能描述时间序列的非线性信息等优点,已被用于提升时间序列分类(Time Series Classification,TSC)的性能。然而,这类方法因需要将高维相空间中的轨迹投影到二维平面,往往会导致信息丢失或造成虚假的信息,从而导致分类准确率的下降。本论文的研究目的便是分别在单变量时间序列(U
学位
近年来,随着社会信息化程度越来越高,互联网改变了人们的生活,成为了人们生产生活中不可缺少的一部分。但是,随着网络安全问题日益凸显,人们的隐私和数据安全不断受到威胁。数字身份作为互联网的基础设施,是网络安全中的重要一环。而传统的身份管理方式下存在用户隐私泄露、身份管理效率低、数据共享困难等问题。为了改进数字身份管理方式,保障网络数据安全和用户隐私安全,本文进行了以下研究:1)为了解决集中式数字身份管
学位
目标跟踪是计算机视觉领域一项基础性挑战任务,具有重要的学术价值与实用意义。在给定初始帧标注信息后,其任务不仅要在后续帧中对目标中心进行粗略定位,还需要进行精确的目标状态估计。近来,基于孪生架构的方法因其能在保持良好速度的同时取得较显著的性能,引起了目标跟踪领域的广泛关注。然而,孪生网络分支通常是独立的,缺乏信息交互,这限制了模型性能的进一步提升。为了增强孪生网络分支的协作能力,本文提出基于孪生架构
学位