基于深度学习的行人搜索问题研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:zlklovey365
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,越来越多的研究者开始投入到人脸检测、人脸识别、目标检测和行人再识别等经典的计算机视觉任务研究工作中来。计算机视觉研究如何使计算机像人类一样具有通过视觉感知和理解世界的能力。就现阶段而言,计算机对于世界的“视觉”感知大多依赖于电子摄像机所拍摄的图像、视频等,而其研究热点大多聚焦于和人类有关的任务。本文在人脸检测、人脸识别、行人检测和行人再识别等计算机视觉领域经典任务的基础上,研究了更加符合实际应用需求的行人搜索问题。本文研究的行人搜索问题分为检测式行人搜索问题和人脸导向式行人搜索问题。检测式行人搜索问题要求我们从全景图像集中定位和搜索匹配到目标行人的样本,而人脸导向式行人搜索问题要求我们将外观差异较大的同一行人个体的不同样本进行匹配。对于检测式行人搜索问题,我们提出了基于Dense Net的一体化网络模型——具有空间不变性的行人搜索网络(Spatial Invariant Person search Network,SIPN),以全景图像作为输入,同时输出行人检测和行人再识别的结果;同时,该模型针对检测式行人搜索场景中行人样本存在空间变化的挑战,设计了行人空间变换器,在产生行人候选框的同时,对候选框中的行人特征图进行空间矫正,使得矫正后的正样本行人特征较之目标行人特征相对“不变”;再者,我们还改进了用于检测式行人搜索任务的线上样本匹配(Online Instance Matching,OIM)损失函数,提升了模型训练过程中的准确率和效率;此外,本文还提出了适用于检测式行人搜索问题的三元组损失函数,有效地利用了检测式行人搜索场景中的非标记个体样本,进一步提升了行人搜索的准确率。而对于人脸导向式行人搜索问题,本文提出了一种结合人脸识别和行人再识别的两阶段级联式模型,首先对于数据集中的样本进行人脸检测和识别,提取人脸特征,通过特征比对后选择与目标行人样本在人脸特征空间中最相似的若干个样本作为下一阶段的目标样本,而后以这若干个样本为目标,进行多目标行人再识别匹配,完成第二阶段的搜索任务;同时,我们还提出了一种多个待搜索目标之间的相互限制性条件,通过彼此匹配目标的矛盾性压缩第二阶段即行人再识别阶段的样本空间,提升搜索的准确率和效率;最后,本文利用图模型对数据集中的样本进行建模,通过图模型的最短路径搜索算法进行更准确的行人搜索。综上,本文讨论了两种切合实际的行人搜索任务,提出了相应的模型和算法,并通过分析原理和实验验证了我们的方法的有效性,并对所提出的模型进行了详细的分析和探讨。
其他文献
随着超级计算机和数据中心的发展,其对处理速度和传输容量的要求越来越高,传统的电互连技术难以突破传输带宽、互连密度及功耗方面的瓶颈。光互连技术因为具有高带宽、低延迟、低功耗、低传输损耗和抗电磁干扰等优势,能很好的满足超级计算机和数据中心的需求,正逐渐取代电互连向板级甚至芯片级互连方向发展。聚合物作为制备光波导的一种材料,具有成本低、集成密度高、与传统印刷电路板(Printed Circuit Boa
学位
随着计算机网络的快速发展,社会的不断进步,空间上的距离已经不再是人们沟通交流的障碍。处在不同地域的人们,可以方便的使用音视频应用与其他人进行沟通交流。这些音视频应用提供了方便廉价的交流方式,给通信行业带来了翻天覆地的变化。大多数音视频应用依靠多媒体处理引擎来实现,音频引擎及其包含的音频处理算法是其中的重要组成部分。普通开发者独立实现一套音频引擎的难度是非常大的,需要把音频媒体的采集播放,音频编解码
学位
针对超级电容电极材料的开发,本论文聚焦于废弃物衍生碳基复合材料的制备,并探索了在超级电容中的性能。选取了生物质废弃物甘蔗渣和工业废弃物含氧化石墨烯废液,通过水热等方法制备得到了碳基复合材料,对所制备的材料进行了形貌、结构表征和电化学性能测试。初步探讨了材料的结构和电化学性能的关系。具体研究如下:1、首先,针对生物质废弃物甘蔗渣,通过简便的水热法,利用甘蔗渣制备了多孔碳,表征了其形貌结构,并且制备成
学位
随着神经网络的发展,大量基于视频以及基于3D骨架的动作识别算法涌现出来。由于视频信息计算量大,而3D骨架因为维度小、运算速度快,所以基于3D骨架的动作识别成为人机交互的重要手段。但3D骨架缺乏细节的RGB像素信息,比如人物的肢体以及与人交互的物体信息。在相似的动作中,仅用3D骨架进行动作识别容易引起混淆。为了解决这个问题,使3D动作识别精度更高、更加稳定,本文尝试了将3D骨架信息和单张RGB图片进
学位
以硅为主要材料的MEMS器件已经广泛应用在消费电子、生物医疗和汽车等领域,但随着社会需求的不断多样化和科研工作的深入,在一些高温、高压、强震动的极端环境下,硅基器件经常会出现性能退化甚至失效等问题,已难以符合实际应用需求。碳化硅(Si C)材料具有较宽禁带、高机械强度、高击穿电场强度、高物理硬度等优异性质,因此非常适合取代硅材料而应用于高温高压的恶劣环境下。本课题旨在研制一款能应用于600℃高温环
学位
近几年随着物联网技术与人工智能的发展,人机交互方式从单一的触控方式到多方式兼备,其中语音交互技术得到了大量普及,人们通过一条语音指令在语音控制系统上实现一系列操作,随着语音控制系统所拥有的权限也越来越多,其安全性的讨论很有必要。非线性性质广泛存在各种电路中,早在上个世纪就被发现提出并被称为谐波失真和互调失真,语音控制系统的硬件麦克风也不例外,本文利用此性质讨论了一种针对语音控制系统的超声波攻击手段
学位
随着城市视频监控系统的建立、视频拍摄设备的普及以及视频编辑软件的出现,一方面,硬软件设备的支持使得人们学会利用工具来修改媒体内容以达到特殊目的,更有甚者将篡改视频加以传播,影响社会稳定;另一方面,数字视频已作为法庭上重要的电子证据,若不能保证其原始性将严重危害司法秩序。因此,视频篡改检测技术获得了国家和社会的关注。而对于篡改取证,视频重压缩研究至关重要。本文研究的主要对象为,GOP非对齐的HEVC
学位
作为新一代生物可降解医用金属材料,镁及其合金由于具有良好的生物相容性、力学相容性以及生物可降解性而受到了日益广泛的关注,围绕其进行的血管支架用微细管材的研究也日益增多。然而,镁合金通常具备HCP结构,塑性变形能力较差,这给需要经历极大塑性变形的微细管材的研制造成了很大困难。本文通过对JDBM镁合金热变形行为的研究,开发出了合适的挤压工艺,随后通过多道次的轧制、拉拔和热处理工艺,制备出了高质量的镁合
学位
随着地面数字电视广播需求的日益改变,原有的地面数字电视广播系统已经无法满足用户的需求,也无法为广播业务提供商带来更多的效益。基于此,美国高级电视业务顾问委员会(Advanced Television Systems Committee,ATSC)制定了美国新一代数字电视标准——ATSC3.0。ATSC 3.0的应用需求、设计目标和技术路线,特别是采用的以互联网协议(Internet Protoco
学位
苯并吡喃类化合物结构丰富,生物活性多样,多发现于植物中。厦门霉素A(xiamenmycin A)是分离自来源于福建红树林沉积物的厦门链霉菌(Streptomyces xiamenensis)318中的苯并吡喃类化合物,具有抗纤维化和抗炎活性。其结构由三个单元构成,依次是4-羟基苯甲酸、苏氨酸取代基和香叶草基。厦门霉素A和B(xiamenmycin B,1)母核中的3-羟基色原烷醇广泛存在于活性天然
学位