人体局部信息协助的彩色红外行人再识别方法研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:yjn511
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
行人再识别是利用计算机视觉系统,在图像或者视频集中搜寻给定人物的任务。任务特点是该人物会从一台相机的视野中消失,然后出现在另外一台与前述相机无重叠视野的相机中。行人再识别已经被广泛应用于社会安保和安防中。目前大多数的研究工作专注于可见光条件下的彩色图像。然而在光线不足的情况下,传统彩色相机的成像是无效的。为了解决光线不足导致彩色相机无法成像的问题,红外相机成为了一个可替代的方案。基于红外相机的成像特殊性,产生了红外图像和彩色图像互相检索匹配的任务,即跨模态行人再识别。跨模态行人再识别领域主要存在两个关键挑战,即难以在不同模态图像之间找到鉴别信息来再识别同一个人,以及难以为大规模的跨模态检索学习鲁棒性的度量。以往大多数工作通过直接对原始特征表示进行学习来解决具有跨模态鸿沟的特征对齐问题,并且提取特征操作也是针对整幅图像进行,导致特征不能很好的对齐,以及对检测错误和人体姿势变化不具备鲁棒性。本文旨在设计一种模型能够解决以上存在的不足。具体的研究工作总结为以下几个方面:(1)针对跨模态行人再识别中彩色图像和红外图像的跨模态鸿沟,本文提出了图像模态转换模型(CE~2L)来解决具有跨模态鸿沟的特征对齐。该模型通过彩色图像和红外图像之间的模态转换来添加判别信息和学习鲁棒性的特征。其优点主要体现在两个方面:1)使用图像模态转换模块将红外图像转换为彩色图像,不仅可以增加图像的识别特征,而且还可以让模型更好地学习两种模态的图像特征;2)图像模态转换模块还可以作为数据量增强器。它可以通过将有标记的训练图像转换为另一种模态图像来增加数据多样性和总数据量,从而防止网络过度拟合。(2)针对视角、背景和行人姿势对再识别的影响,本文提出了人体局部信息协助模型(BANet),通过考虑人体局部信息线索来获取更具判别性和鲁棒性的特征表示。BANet模型为本文的最终版本,它在CE~2L模型的基础上进一步考虑人体局部部位线索和不同部位的表示权重来学习具有分辨性的信息。BANet模型还进一步消除了背景对再识别的影响。(3)本文提出的CE~2L模型和BANet模型分别在数据集Reg DB和SYSU-MM01上进行了实验。实验结果表明,考虑人体局部信息的BANet模型在实验数据集上取得较好性能,特别是在Reg DB数据集上较目前最新方法提升rank-1和m AP指标约7%。
其他文献
随着信息技术革命的日益推进,数字化转型成为中小物流公司在未来生存发展的必然需要。本研究集中探讨了数字鸿沟情景下中小企业数字化转型的“不敢、不会、不能转”的数字鸿沟问题,从数字鸿沟视角为中小企业数字化转型提供了实现路径,有助于中小企业更加深刻地剖析自身存在的问题。
期刊
本文以2012—2020年中国A股上市企业为研究样本,实证分析不同生命周期阶段的数字化转型对企业价值的影响。研究结果表明:(1)随着生命周期的推移,数字化转型与企业价值之间呈现先上升后下降的倒U型关系,且数字化转型不能显著提高衰退期企业价值;(2)数字化转型通过技术创新和业务创新影响成熟期企业价值,且数字化转型仅通过技术创新影响成长期企业价值;(3)数字化转型对国有企业和高市场化地区企业价值提升的
期刊
随着计算机的飞速进步和互联网的迅速扩张,人工智能、大数据和5G技术在2015年到2020年期间取得了巨大的进展。伴随着这些高科技的发展,用户在各种计算机终端设备上,访问的信息形式发生了由文字到音频、音频到图像、图像到视频的巨大转变。在图像的采集和传输过程中很容易会受到多种不同原因的影响而使得图像的质量变差的情况。为了缓解这些因素对图像的影响,更加先进的图像去噪技术迫切需要被提出。本文以图像去噪为基
学位
随着近年来生物测序技术的迅速发展,基因数据井喷式增长,测序在生物信息学研究中扮演了重要的角色。在育种实践中,由于样本规模较大,高密度的测序数据获取成本较高,通常会采用高低密度测序混合的方式来获取基因型数据,分析计算时再利用基因型填充工具将低密度数据填充为高密度数据以获得更准确的选种选配结果。基因型填充主要是利用缺失位点与附近位点的遗传连锁不平衡特性来推断缺失值。传统填充方法大多是基于隐马尔可夫模型
学位
近年来少样本学习受到了很多关注,它旨在从少量有标签训练数据中实现快速学习和泛化。少样本图像分类作为少样本学习的主要分支,它的目标是在每个类只提供单个或几个训练样本(支持样本)时学习一个分类器以识别测试样本(查询样本)的类别。在少样本学习中应用元学习的思想可以帮助模型在相同类型任务之间迁移有用的元知识,一定程度上减轻样本量少带来的问题。但是少量样本带来的信息十分有限仍不足以充分表示一个类别。在元学习
学位
随着互联网新闻资讯数量的急剧增长,用户常常会面临巨大的阅读障碍,难以及时且准确地知悉新闻资讯的主要内容。在此背景下,为了满足用户快速获取新闻概要的需求,对大规模新闻资讯进行智能化概述,开展文本自动摘要技术的研究尤为必要。本文以大规模新闻数据集为研究语料,以增强生成摘要包含的主题语义信息为主线,分别开展了抽取式自动摘要、生成式自动摘要以及生成式模型训练优化等方面的改进研究工作,最终采用“先抽取,再生
学位
随着全球移动数据流量呈爆炸式增长,移动视频将成为移动网络中最主要的服务之一。边缘缓存技术将内容存放在更接近用户的网络边缘端,能有效降低请求延迟和网络负载。现有的边缘缓存工作主要从系统或用户的角度展开研究,旨在减少传输延迟、降低系统能耗和提升用户体验等,但移动视频服务的主体是内容提供商,较少工作考虑内容提供商的缓存经济成本。为此本文从内容提供商的角度对视频边缘缓存问题展开了深入研究,主要包括:多个内
学位
数字化转型对企业绩效的影响机制是近年来学界和业界关注的重要议题。本文针对这一领域的研究成果,首先对数字化转型的概念内涵以及其与企业绩效关系的理论依据进行系统评述;其次,归纳数字化转型对企业绩效的直接影响,如促进作用、抑制作用、曲线效应,以及数字化转型与企业绩效关系的情景因素和中介变量;最后,提出未来研究方向,包括数字化转型行为的演变规律及对企业绩效的动态影响机制、数字技术和商业模式变革对于提升企业
期刊
给定一张未化妆的源图像和一张任意妆容的参考图像,妆容迁移目标是生成一张新的图像,该图像具有参考图像口红、眼影、腮红等妆容信息,又保留源图像人物身份、表情、姿态以及背景等内容信息。因其广泛的应用场景和巨大的市场需求,妆容迁移得到了越来越多的关注和研究。在妆容迁移任务中,主要有两方面的内容需要学习,一方面是建立源图像和参考图像之间的语义对应关系,另一方面是提取参考图像的妆容信息。现有的妆容迁移算法利用
学位
场景图像中的文字包含丰富的高层语义信息,精确检测场景文本有助于感知和理解图像,文本检测一般采用基于目标检测和基于语义分割的方法。基于目标检测的文本检测方法大多依赖于锚策略生成文本候选区域框,但锚定位框依赖于人工设定,不能很好的满足自然场景图像不同尺度、形状和方向文本的检测问题,而且会产生大量重复检测,影响检测精度和效率。另外,此类方法学习的是单词或文本行级的特征,无法获得字符级特征以及拟合曲形文本
学位