A Study on Real--Time Object Detection and Re--Ide

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:jzl_root2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
监视系统安装了大量室内和室外监视摄像机,是最常见的大数据源之一。数据源生成大量的原始可视化数据,使得分析过程成为繁重的人工任务。监视视频分析中最重要的功能之一就是目标检测,以此作为重识别任务的先决条件。为此,大量算法和技术被开发并安装在智能监视系统上,特别是在基于深度学习的方法取得了显著进步之后。但是,在开发可实时运行的算法时,检测算法的计算成本仍然是一项重大挑战。此外,在目标重识别的有效性方面,现有文献算法与实际工业应用上的需求仍然存在很大差距。与人脸识别不同,行人和车辆重识别算法在监视系统中仍不能显示出可靠的性能。
  本文的主要目的是为户外监控录像中的目标检测和重新识别开发更有效的学习方案。为此,本文介绍了三种主要的基于深度学习的模型,其中一种模型用于合理解决室外监控视频中小型行人的实时检测问题,另外两种用于对象重识别的新的深度学习方案。本论文的核心贡献和创新概括如下:
  (1)目前监视摄像机已被广泛使用,然而在某些情况下,为了扩大覆盖范围,它们的安装距离很远,这使得视频中的行人以不同的大小出现。为了更好地检测由子弹监视摄像机采集的视频帧中的行人,设计有效的检测算法显得十分必要。此外,由于速度通常与精度成反比,效率和质量之间存在矛盾,使得构建基于深度学习的算法并在低计算资源上运行是一个巨大的挑战,而这在现有文献中尚未得到有效解决。为此,本文提出了一种快速,轻量和基于自动缩放框架的神经网络,用于室外监视场景中的小型行人检测。通过有针对性的虚拟自动缩放技术,将输入帧分为非重叠图块并仅关注相关图块来自适应放大输入帧。在不牺牲检测精度的前提下,得到了一个在低计算资源下运行的全卷积行人检测模型。针对小型行人检测问题,现有文献的大部分解决方案都集中在CNN的结构和大小上,这反过来又会导致速度的急剧下降
  (2)由于某些身份之间的差异极小,使得获得有效的特征来进行重新识别和验证成为一项艰巨的任务,例如两辆具有相同颜色、型号和品牌但具有不同ID的车辆。此外,在推断阶段,查询图像的视点可能不同于在图库中需要检索的那些视点。但不管其视点如何,其结果都期望从有效的模型中学习相同对象标识的特征表示。与人脸验证不同,大多数现有的基于深度学习的模型对行人/车辆的重识别能力远非完美。本文通过设计能有效导出变分特征的新模型,可进一步提高行人/车辆的重新识别性能。对此,我们提出了一种新的基于特征的学习方案,即监督变分特征学习(VFL)。现有的重识别方法往往会推导出几千到几万个维度的特征,而我们的模型用于行人和车辆有效表示的特征维度可低至256。其次,我们从VFL中引入了一个扩展框架,以从多角度学习车辆的有效表示。扩展框架的关键在于两个方面:首先,我们采用提出的变分特征学习(VFL)来生成更具判别力的变分特征。其次,使用长短期记忆(LSTM)来学习单个对象的不同视点的内部特征。LSTM还充当编码器以减小特征尺寸。
  (3)大多数最新方法都将度量(相似性)学习方案用作其模型的基石或最重要的部分。该学习方案指导神经网络生成更多区分特征,并在人脸识别方面显示出非凡的性能。然而,就重识别精度而言,这种学习方法在车辆重识别上的性能仍然不能令人满意。对此,本文引入基于多标签的相似性学习(MLSL)进行车辆重识别。作为一种有效的基于深度学习的模型,MLSL模型对车辆的表示具有较好的鲁棒性。总体而言,提出的模型包括两个主要部分:第一部分是基于多标签的相似性学习器,对车辆的三个不同属性(车辆ID、颜色和类型)使用Siamese网络。第二部分是一个常规的基于CNN的分类器,用于学习带有车辆ID属性的特征表示。提出的MLSL模型由这两部分共同训练。
  对于本文提出的每一个深度学习模型,我们通过对15个不同数据集的大量实验验证了其有效性。这些实验经过精心设计以验证每个模型的模块,并将它们的性能与最近的相关方法进行比较。
其他文献
内容摘要:安妮塔·布鲁克纳小说《杜兰葛山庄》中女主人公埃迪斯·霍普的服饰选择与其身份建构紧密相连。服饰不仅是埃迪斯表达女性立场、反抗男权社会压迫的方式,也是让她陷入消费社会物质陷阱、丧失主体性的消费符码,服饰更是促进她在写作中自我反思和身份重建的动因。文章以服饰文化为切入点,并结合消费社会的时代背景,深入分析埃迪斯的成长历程,探究服饰与女性身份建构的内在耦合关系,进而揭示男权社会及消费市场对现代女
期刊
内容摘要:陕西当代长篇小说是陕西文学的重要组成部分,其英译活动是陕西文学走向世界的重要途径,亦承载着讲述中国故事的重要使命。本文考察陕西当代长篇小说英译与接受概况,缕析国内外译介研究现状,发现陕西当代长篇小说英译数量有限、接受效果不佳、研究热度不足,并从文本方面与非文本方面提出针对性建议,以期为中国文学外译提供启示借鉴。  关键词:陕西当代文学;译介与接受;中国文学外译  基金项目:本文是陕西省社
期刊
新能源的发展是世界持续关注的重要问题,可再生清洁能源中的太阳能以其突出的优点被世界各国所推崇。如今光伏发电效率低是限制太阳能发展的技术难题,如何有效提高光伏发电效率成为了重要的研究方向。目前对提高光伏发电系统发电效率的研究大致分为两个方向,分别是通过追踪全局最大功率点来提高发电效率和着重于如何在传统的DC-DCBoost升压电路中改进优化拓扑结构进而提升效率两个主要研究方向。
  大量搭建在户外的光伏发电设备因云层、建筑、树荫等物体的遮挡会影响光伏电池板的发电功率,在光伏阵列输出特性曲线上产生多峰值
内容摘要:自19世纪犹太启蒙运动以来,现代希伯来文学一直在启蒙犹太民族意识形态中扮演着先锋作用。希伯来小说在教育以色列人和现代犹太人方面扮演着重要角色。通过分析不同历史时期的三部希伯来小说,本文考察现代希伯来文学对民族性的教导与反思,及其随着复国主义思想的发展而发生的演化。在以色列建国前的伊休夫时期(1920-1950年代),“?????”(故土、祖国)是美育、文学、和地理教育的重要核心,小说家萨
期刊
基于多光谱遥感影像的分类是对地观测的重要手段,同时也是农作物精准预测的重要手段。在众多的多光谱图像农作物分类算法中,深度学习作为一种新颖的分类算法,能够自动从大量数据中获取到合适的映射关系,提取出分类特征,进而实现分类识别功能。然而深度学习神经网络同传统分类算法一样需要合理地选择特征还有模型结构,此外由于地区与时间的不同导致的多光谱图像的不同,分类算法极有可能在其它区域不适用或分类精度下滑严重。针对上述情况,本文做出了以下工作:
  1、对多光谱图像的时间,空间,光谱谱段建立神经网络模型,并分析模型
高光谱图像蕴含着丰富的空间特征和光谱特征,在环境保护、军事打击、农业生产等领域中发挥着重要作用。在图像重建领域上,使用少量的数据重建出质量较高的图像,将对信息的存储和传输带有极大的便利。稀疏表示在光谱分类和图像重建中有着重要的应用,并取得了良好的效果。但基于稀疏表示的光谱分类和图像重建需要采用传统优化算法进行迭代更新,而优化算法存在一些问题,使得其无法达到最好的分类结果和重建精度。一方面由于传统优化算法需要设置合适的参数,但参数的设置具有随机性,参数的选择困难。另一方面由于传统优化算法需要进行多次的迭代才
每天都有数以百万计的视频被制作并上传到网上,其中大部分视频的内容都没有经过审核。此外,VideoEditor、AdobePhotoshop、WindowMovieMaker、以及AdobeAfterEffects等视频编辑软件也被广泛使用。这些软件支持各种各样的视频编辑方法,即使编辑后的内容与原始内容有很大的反差,视频内容也能被随意编辑。
  此外,随着深度学习技术的快速发展,已经出现了自动将一个人的脸部替换为另一个人脸部的视频编辑软件,如FakeApp、Faceswap等工具。这导致人们看到这些视
随着人工智能和深度学习在图像分类方面的成功,研究界将其兴趣集中在利用深度学习的能力来促进各种过去被认为具有挑战性和不可能实现的任务。深度学习取得很大成功的一个领域就是自然图像中文本的检测。随着越来越多的数据和更好的计算资源的可用性,将深度学习应用于场景文本检测和识别已经取得了很大的进展,一些最新的结果有时甚至超过了人类的能力。在这一领域,对于其广泛的商业应用来说,在更具挑战性的场景中检测文本方面正在取得进展。然而,尽管在自然图像中检测具有挑战性的文本取得了巨大的成功,但大多数方法和数据集的焦点都集中在对场
内容摘要:“诗话”是中国古典诗歌创作论独有的呈现方式,其充满思辨哲理色彩的诗论与字字珠玑的诗例相偕相生,共同铸就思想精妙、同时文采斐然的“学术”与“艺术”并驰的效果。然而在其英译中,诗论“学术品格”受重视的程度远远超过诗例之“美学品格”,后者往往在对前者屈从的过程中隐身,令作为论据的诗例由源语中的流光溢彩变为译语中的黯淡平庸,造成诗论空洞无凭。本文通过对《大中华文库·人间词话》诗词英译“美学品格”
期刊
在过去的五十年里,数字调制方案的设计思路大多是利用正弦波信号的幅度、相位、频率作为信息载体,采用高阶调制、高带宽、大功率信号实现高速率通信。然而,随着信息与通信技术产业的快速发展,无线电频谱资源日益稀缺,行业的能源消耗不断加大。因此,研制高谱效与高能效的无线传输技术是未来移动通信的重要发展方向。
  近几年出现的序号调制是一种打破传统设计思路的高谱效、高能效数字调制技术。它利用通信系统中诸如天线、子载波、中继、调制类型、时隙等基本组成模块的“开关”状态承载比特信息。空间调制(Spatial Modu