基于深度学习的可见光-红外跨模态行人重识别研究

来源 :四川大学 | 被引量 : 0次 | 上传用户:1010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能监控领域朝全天候化、多场景化的方向发展,在可见光摄像头已有一定部署基础的前提下,红外摄像头也正在被广泛应用。基于可见光与红外图像的跨模态行人重识别受到了越来越多的关注。一方面,通过行人检测得到准确的检测边界框图像作为输入,是行人重识别在实际应用中表现良好的重要基础,然而目前大部分行人检测研究集中于可见光图像而忽略了红外图像。由于不同模态图像本身存在的差异,将可见光行人检测成果直接迁移至红外行人检测的做法表现并不理想。并且,受限于尺度变化、遮挡等因素,红外行人检测仍然具有较高的研究价值;另一方面,受模态间以及模态内差异的影响,跨模态行人重识别仍然面临着巨大挑战。本文从构建一个跨模态行人重识别系统的角度出发,针对红外行人检测及基于可见光与红外图像的跨模态行人重识别进行了研究,主要工作如下:(1)本文提出了一种有效的红外行人检测网络。针对检测场景中行人尺度变化较大的问题,本文提出改进后多尺度特征融合模块,使得在充分结合低层位置信息与高层语义信息的同时,获得更丰富的梯度信息组合,同时减少计算量;针对正负样本不平衡问题,本文鼓励更为灵活的预测标签连续表示,提出使用质量聚焦损失作为分类损失与置信度损失。本文提出的红外行人检测网络在KAIST数据集的评估中,LAMR(Log-Average Miss Rate)达到了 21.64%,LAMR Day 达到了 27.48%,LAMR Night 达到了 8.72%;在 FLIR数据集的评估中,mAP(mean Average Precision)达到了 78.1%,行人类别的AP达到了82.9%。(2)本文提出了一种基于双尺度注意力残差模块的跨模态行人重识别网络。该网络设计了一种新颖的双尺度注意力特征模块,用于从局部尺度与全局尺度下尽可能地关注到不同模态下输入样本行人图像中具有鉴别性与鲁棒性的特征。在SYSU-MM01数据集上,以single-shot+all-search模式下的评估为例,该网络的Rank-1 与 mAP 分别达到了 61.99%、59.80%;在 RegDB 数据集上,以 Infrared to Visible模式下的评估为例,Rank-1与mAP分别达到了 84.29%、80.84%。(3)本文提出了一种基于模态内外双注意力约束的跨模态行人重识别网络。该网络包含两个约束模块,分别为自适应图结构约束模块以及双尺度注意力加权约束模块。同时,引入了 Focal Loss作为身份损失,用于改善样本失衡问题。在SYSU-MM01数据集上,以single-shot+all-search模式下的评估为例,该网络的Rank-1 与 mAP 分别达到了 63.58%、60.25%;在 RegDB 数据集上,以 Infrared to Visible模式下的评估为例,Rank-1与mAP分别达到了 83.66%、77.62%。
其他文献
单个无人机的应用场景相较于多无人机来讲局限性较强、任务执行效率较低,多无人机协同具有更好的稳定性、适应性,因此多无人机协同技术的研究显得十分关键。而多无人机的路径规划是无人机协同技术的基石。Dijkstra算法和A*算法是路径规划技术的经典算法。此类算法对于已知环境能够规划出合理路径,但是对于未知环境,算法表现则不太令人满意。一些智能优化算法,如蚁群算法、粒子群算法、遗传算法等,也被用在无人机的路
随着工业互联网建设的大力推进,工业控制系统网络逐渐从封闭式向开放式转变,但工控安全系统的发展相对而言却有些落后。近年来,工业控制领域的攻击事件逐年上升。由于工业控制系统重点应用于许多与民生紧密相关的领域,一旦这些领域的工业控制系统遭到攻击,将会产生非常恶劣的影响。而入侵检测是一种可以保护系统安全的有效措施,可以有效地发现安全威胁。因此,近年来,针对工业控制系统的入侵检测受到了相关从业人员和研究学者
文本分类任务属于自然语言处理(Natural Language Processing,NLP)领域中的一个基础且十分重要的子任务。该任务旨在为一段文本打上对应的标签。比如对新闻文本数据进行主题分类,对电商平台的用户评论进行星级预测等。随着互联网数据的爆发式增长,如何对这些庞杂的文本数据进行分类已成为了一个非常重要的研究方向。目前最常见的文本分类方法主要都是基于深度学习模型的,其中主要包括卷积神经网
沉浸式投影被广泛运用到人机交互、增强现实与虚拟现实等领域。为了达到真实的视觉体验,通常采用包围式投影屏幕和多投影技术。由于投影屏幕的非平面特性及投影仪数目众多,投影光在传播过程中产生了复杂的互反射效应,导致投影画面亮度冗余,质量退化,干扰了用户的沉浸感体验,甚至对虚拟现实等系统的实际使用造成严重阻碍。因此,互反射补偿对实现投影图像的高质量重现具有重要的实用价值。传统互反射补偿方法通常采用多模块解决
推荐系统通过对海量的用户与物品间的交互数据进行处理,向用户进行个性化推荐。会话推荐是推荐系统中的一个重要分支,旨在解决匿名用户的推荐结果不准确的问题。会话推荐能够对用户进行实时性推荐,仅根据用户的历史点击操作就能为用户进行相关推荐,给用户带来良好的使用体验。目前,会话推荐方法主要分为三类,分别是基于传统机器学习的方法、基于深度学习的方法以及基于图神经网络的方法。通过对这三类方法的分析和总结,发现现
卷积神经网络在多种场景中成为了优秀的解决方案。在移动终端设备上部署卷积神经网络产品已具备现实需求,如短视频特效、智能无人机、智能相机和野外草本识别等场景。特别地,无网、弱网或禁网的隧道、洞穴和军工等场景也具有硬需求。卷积神经网络产品需要对大量的浮点数进行存储和计算,对存储器、算力、功耗等资源需求较高。因此,为了在移动终端上部署卷积神经网络产品,需要对资源消耗进行优化。本文内容是研究如何将卷积神经网
随着社会信息化程度的提高,图像采集设备也得到了大量地普及,由此数字图像已经成为了重要的信息载体。在现实应用中,由于成像系统自身存在缺陷,以及考虑到网络传输时延和存储空间等限制,数字图像通常以较低分辨率的形式存在。图像超分辨率就是对较低分辨率图像进行复原,其不但能改善图像在视觉层面的感知质量,又可以为后续的高级计算机视觉任务打下基础,因此也是底层视觉任务中一直都很活跃的话题。近年来,基于深度学习的单
基因变异鉴定(variant calling)是生物信息学中一项重要的研究,而基因变异中的单核苷多态性位点(Single Nucleotide Polymorphism,SNP)和InDel(Insertion and Deletion)是基因变异中非常常见的变异类型。其随着测序技术的发展也一直在不断深入研究,现有的基因变异鉴定技术在第二代测序数据上表现较为成熟,但在近些年兴起的第三代测序数据上几
基于深度强化学习的推荐算法具有灵活的推荐策略并且考虑了用户未来的长期交互体验,所以受到了越来越多的研究人员的关注。虽然有很多与基于深度强化学习的推荐算法相关的研究工作,但是现有的研究工作仍然面临以下两个挑战:第一个挑战是现有的深度强化学习推荐算法在学习用户偏好时没有考虑到用户的临时偏好。在用户的历史交互记录中总会存在一些很少出现并且脱离用户一般偏好的非典型的交互。由于用户偏好的动态本质,用户的非典
国画在传承的基础上不断创新,其中工笔画和水墨画成为当今绘画的主流。在传统国画中,花卉的描写是一种重要而经典的表现形式。因此,本文主要针对国画花卉的智能创作开展了一系列研究工作。工笔画在同白描有着同样精确笔触的基础上,通过大量的色彩和精确的笔触来实现对绘画对象的模拟。水墨画更加关注水墨色彩的变化,强调图像浓淡与枯润度表达的和谐性,通过有限的色彩和自然流畅的笔触实现写意的表达。从传统的基于机器学习的方