行人重识别关键算法研究

来源 :上海交通大学 | 被引量 : 2次 | 上传用户:binglei2_zj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
行人重识别技术是安防监控领域的关键性任务之一,是计算机视觉领域近年来深受关注的研究热点。在无重叠的视频监控网络中,对于摄像头中给定的某个行人,行人重识别的目标是检索到该行人在其他摄像头下出现的所有图片。作为自动识别目标行人的技术,行人重识别能够在安防监控系统中对感兴趣的个人进行快速定位,可以广泛应用于行为监控、分析和预警等实际问题中。随着大规模计算资源的提出,利用深度学习的方法自动学习特征用于分类识别,成为了学术界的研究热点,尤其是用深度神经网络提取行人的特征取得了比较好的效果。然而,深度神经网络对数据依赖程度较高,性能极大地依赖于高质量易区分和大规模的数据输入。由于摄像头视角引起的光照变化、角度变化、姿态、遮挡干扰等,行人的图片在不同摄像头下往往存在明显差异。同时,已有的行人重识别数据集的规模相比于其他分类数据集(如Imagenet等几百万张图片)更小,因此利用深度神经网络对行人做识别存在着更大的挑战。在有限的行人数据中提取足够具有区分度的特征,从而提升行人重识别的性能,成为亟待解决的的关键性问题。本文致力于探索行人重识别有效的深度学习框架,全方位的解决包括有监督学习下的特征提取,数据扩充,迁移学习,以及更具挑战性的无监督学习下的标签预测以及特征学习问题。本文的研究内容涵盖了行人重识别的两大分支,有监督学习和无监督学习。有监督学习包含标签信息可以有助于网络显式地学习特征表达,是我们的研究重点。我们从深度网络设计,有效数据扩充和重排序算法上进行了探索。无监督学习由于缺失标签,需要更为针对性的算法帮助网络训练,我们从标签预测方面进行探索。在有监督行人重识别方面,特征学习和重排序算法是研究者们广泛探索的问题。在特征提取算法上,我们提出了多重注意力机制下的时空域特征融合网络,用于解决基于视频的行人重识别问题。相比于基于非连续性的图片的行人重识别(往往更依赖于外貌特征做识别),基于行人视频的重识别算法由于包含更多的连续性样本,能够通过提供更可靠的序列化特征(如步态等)来更好的解决由遮挡等带来的挑战。此外,基于视频序列的行人重识别也更符合实际监控系统下的真实情况,具有较高的研究价值。因而我们主要对基于视频的行人重识别进行了探索。在研究其特征提取算法中,我们做了以下两方面的工作。(1)考虑到对行人的视频序列来讲,仅从空域特征(外貌,衣物颜色,纹理等)来进行表征是不够全面的,我们综合考虑行人序列的空域外貌特征和时域周期化特征来得到更全面的特征表达。为此,我们提出了时空域特征融合网络,其中包含卷积神经网络用于空域特征提取,以及递归神经网络用于时域特征提取,同时涉及残差层用于空时特征融合。(2)考虑到不同的行人序列数据来源于不同的摄像机镜头,数据间存在较大差异,用固定权重的特征融合框架并不能得到更好的特征表达。我们进一步地提出多重注意力机制,使网络能够自动分配重要性权重用于特征融合。在重排序算法上,我们提出了联合群组和个人信息的行人重排序算法。基于单人图片的重识别算法无法较好的处理遮挡等问题。而群组由于包含多个行人的交互信息,且在实际监控系统中较为常见,因此利用群组的共同行动所提供的信息可以解决一些单人的行人重识别所不能解决的问题,例如遮挡、形变等。基于此,我们利用群组排序的结果对单人重识别结果进行重排,得到更为准确的行人匹配结果。在应对输入数据对深度行人重识别网络影响方面,我们提出了针对性的数据生成方案。由于现有行人重识别数据集普遍过小,属于中小样本的行人细粒度分类问题,不足以满足深度网络训练要求,不充分的训练数据集会使得训练时准确率较高,测试时表现很差,引发过拟合现象。数据生成方法能够一定程度上解决过拟合的问题。针对行人重识别问题的额外数据扩充显得尤为重要。因此,我们基于深度生成对抗网络,从端到端的背景替换到视频帧预测网络,来部分地解决杂乱背景、有限数据对基于视频的行人重识别的影响。进一步地,这种网络间的对抗学习思想启发我们解决更具实用价值的从虚拟到现实的行人匹配问题。我们提出了基于对抗学习的多风格行人重识别网络。考虑到随着多媒体领域和计算机视觉技术的快速发展,智能安防监控对多摄像机网络布局下多模态下的行人重识别,特别是多风格行人图片的重识别,如从素描、肖像等到实际监控系统下行人图片的匹配,有着很大的需求和发展空间。传统行人重识别受限于不同摄像机视角下光线和行人姿势变化的挑战。多风格的行人重识别,除了数据量不足和特征提取算法方面的挑战,关键性问题还在于多源数据匹配的困难性。为此,在基于对抗学习的多风格行人重识别网络中引入了空间映射,对抗学习来消除多源数据空间的不一致问题,从而得到更好的识别性能。在重点研究了有监督学习网络和数据上的解决方案之后,进一步地,我们对挑战性的无监督跨域行人重识别进行标签预测方面的探索。对于有监督行人重识别,每个行人图像都包含了对应的标签,因此深度神经网络可以在标签信息的辅助下学习行人的语义区分性特征,实现分类。这种情况下,模型的性能往往依赖于行人训练数据的质量和标签的数量。然而,带标签的行人样本往往需要昂贵的人工进行标注。人工标注成本随着标注难度和精细程度成倍增加。因此,我们探索了根据类别未知(没有被标记)的训练样本解决行人识别的解决方案。相比于有监督学习,无监督学习促使我们设计算法驱动网络学习到数据间更为本质的特征用于匹配识别。在有监督学习中探索到的网络设计、数据生成方面的经验,帮助我们对无监督跨域行人重识别进行标签预测方面的探索。首先,我们提出了基于图神经网络的聚类模块,以及交替伪标签生成和行人识别网络更新的递进算法设计。考虑到现有的距离敏感的行人聚类方案局限于特定的手工参数设计,特征间的距离阈值设置极大地影响了最后的聚类和伪标签标记结果。我们采用图网络用于自适应地综合行人图片特征之间的信息,解除对参数的依赖,从而对未标签样本进行更准确的分类。此外,由于聚类和伪标签生成结果均基于行人图片所提取的特征,特征的准确度和伪标签生成之间存在相互依赖的关系,我们设计交替更新的算法用于基于图网络的聚类模块和行人重识别网络之间的相互促进,从而提升最后的性能。类似的,在无监督特征学习方面,我们提出了基于在线数据生成的行人标签预测及自动特征提取算法。考虑到数据扩充亦能帮助跨域无监督行人重识别网络学习数据间的一致性信息。更有效的在线数据生成方案引入分类损失帮助生成网络生成更适合分类的额外数据,用于数据扩充。反之,更有效地数据扩充能帮助识别网络学习更鲁棒的特征表达从而提升最终的识别性能。因此,我们引入在线数据生成方案帮助网络学习更优质的特征用于聚类得到伪标签,更准确的伪标签从而帮助识别网络的训练较大地提升了性能。综上所述,本文的研究内容关注于行人重识别的关键技术研究,着力探讨了有监督学习下的(1)多重注意力机制下时空域特征聚合、联合群组和个人信息的重排序算法设计;(2)基于对抗学习的辅助性数据生成和识别网络设计;以及无监督学习下的(3)基于图神经网络、在线数据生成等的跨域行人伪标签预测和识别。以上内容涵盖了行人重识别技术的多个方面,致力于全方位解决行人重识别的实际问题。遵循从有监督到无监督,各个突破的思路,从网络设计,数据扩充,重排序等的多重探索寻找行人识别性能提升突破点。多个技术之间循序渐进,各有交叉。体现在:网络设计和数据生成互相依存,有利于学习到更具区分度的行人特征,重排序算法依托于提取到的特征表达优化最终的行人匹配结果,而在有监督学习上探索到的有效策略,如数据扩充技术,往往能给无监督学习带来启发。无监督挖掘数据更本质的内在语义特征,则将行人重识别这个问题做了进一步延伸,降低了其局限性。整个研究形成了一体化循序渐进的算法框架,提供了较为全面的解决方案,对行人重识别的实际应用带来了一定的指导意义,为其在实际场景中的落地起到了一定推动作用。
其他文献
高分辨率蛋白质结构的确定对生物学功能注释和合理的药物研发至关重要。单颗粒低温电子显微镜(cryo-EM)的最新研究进展给解析高分辨的蛋白质结构带来令人振奋的希望,即无需结晶、直接确定蛋白质结构,从而快速积累源自电镜图像(EM)的中高分辨率电镜密度图,而这一现象已在电子显微镜数据源库(EMDR)中得到验证。尽管低温电子显微镜技术的进步促使了低温电镜衍生结构的数量激增,但该领域仍缺乏先进的计算方法来利
学位
大规模风电经串联补偿并网引发了次同步控制相互作用问题,对电力系统安全稳定运行造成严重威胁。附加FACTS设备的抑制措施增加了投资成本,也未能充分发掘风电机组自身的潜力,而以滤波、补偿环节为核心的次同步阻尼控制无法在远离其预设谐振频率的工况下保持良好的抑制性能,难以适应次同步控制相互作用频率时变的特点以及风电并网系统复杂多变的工况与非线性特性。在此背景下,本文针对风电并网系统次同步控制相互作用抑制策
学位
相控阵天线在通信领域中很多方面有着重要应用。由于其所处的电磁环境复杂,不可避免地会出现相控阵天线单元失效。相控阵系统中使用了多种电子设备,设备故障可能导致不同种类的失效,多种失效甚至可能同时出现。因此,相控阵失效单元诊断意义重大,备受全世界各国研究者的关注。相控阵的诊断可以通过重构天线单元复数激励来实现。各国学者已经提出了多种方法来诊断失效单元,但是这些传统方法需要大量的测量数据,尤其是在诊断单元
学位
近十年以来,卷积神经网络(CNN)已展示出显著的改善效果,在医学影像应用中具有巨大潜力,可帮助医学专家了解受影响器官的复杂解剖结构以进行手术计划。尽管CNN为图像分割提供了具有潜力的结果,但是现有方法仍然存在经常缺乏在实时环境中提供诸如智能搜索、精确目标定位和分割等功能的特征。此外,基于CNN的现有方法还没有专门为医学专家提供智能功能的混合方案。基于最新的技术要求,本研究开发了一个混合系统以提供三
学位
光学频率梳(简称“光梳”)提供大范围等间隔的相干频率梳齿,且每个梳齿对应绝对光学频率,已成为光学计量和测量技术中重要的光源。相干双光梳干涉仪可以充分利用光梳在频率准确度、频率分辨率、光谱范围和脉冲宽度等方面的卓越特性,在诸多基于光梳的测量技术中脱颖而出。双光梳干涉仪在频域上表现为两个有微小梳齿间隔差异光梳的多外差探测;在时域上表现为两个有微小重复周期差异脉冲序列的等效时间采样。在光谱测量领域,双光
学位
伴随着互联网、移动通信等领域的技术革命,智能家居、无人驾驶和工业自动化等新兴跨学科领域蓬勃发展,现代社会开启了万物互联的物联网时代。传感技术作为物联网的“眼睛”,承担着从物质世界感知与获取信息的任务,是构成物联网的重要基础技术。光学传感器具有抗电磁干扰能力、高速传输、非接触、非破坏性、可遥测等特性,相比传统电子传感技术具有无可替代的技术优势,因此,光传感技术在消费电子、能源勘探和生物医学等应用领域
学位
计算电磁学为电磁散射特性的研究提供了有力的理论支撑。计算电磁学涵盖了对多种数值算法的研究,例如时域有限差分法、矩量法和有限元法等。根据求解域的不同,各方法又可以分为时域方法和频域方法。该论文主要研究时域积分方程方法,开发出了一些混合方法来分析理想电导体结构和均匀介质目标的瞬态散射响应问题,使得时域积分方程方法更加稳定,更加高效,且适用性更广。本文的主要贡献可以概括如下:(1)从时变麦克斯韦方程组出
学位
随着终端设备算力的不断提升,自动指纹识别系统越来越广泛地应用于身份验证,以保护个人隐私和生命财产安全。广大研究人员投身于指纹识别算法的研究中,指纹识别技术得到了长足的发展。但在以下三种应用场景中,指纹系统的准确率、效率和鲁棒性还有待进一步提高。第一,在匹配识别含有裂纹或噪声的低质量指纹图像时,系统准确率会出现明显的下降,需要设计有效的裂纹修复算法来提升识别准确率。第二,在处理1比n的指纹识别场景中
学位
5G时代,网络呈现万物互联、以信息为中心化、虚拟化的趋势,其低时延、广连接、强鲁棒等特点可以满足各种垂直行业(如能源、工业控制、交通等)的差异化服务需求。智能电网被认为是5G非常有代表性的一个应用场景,5G技术的引入为智能电网中信息的高效传输、能量的可靠分发及资源的灵活调度提供了有效支撑。作为国家的关键基础设施,能源网络是现代工业和经济活动的支柱,5G技术的引入不断驱动着新型智能电网的革新和发展。
学位
在传输和接收过程中,语音信号不可避免地会混入噪声信号,语音增强技术的目的是从被噪声污染的信号中恢复理想语音信号,在通信系统接收端、远程会议、智能家居、驾驶舱等不同场景中都有重要的应用价值。过去的几十年间,语音增强技术得到了广泛研究,代表性的的语音增强技术有谱减法、维纳滤波、统计模型法、子空间法等。噪声场根据空间相干性可以分为:扩散噪声场、非相干噪声场、相干噪声场,其中相干噪声场由远场点源噪声产生。
学位