论文部分内容阅读
监视系统安装了大量室内和室外监视摄像机,是最常见的大数据源之一。数据源生成大量的原始可视化数据,使得分析过程成为繁重的人工任务。监视视频分析中最重要的功能之一就是目标检测,以此作为重识别任务的先决条件。为此,大量算法和技术被开发并安装在智能监视系统上,特别是在基于深度学习的方法取得了显著进步之后。但是,在开发可实时运行的算法时,检测算法的计算成本仍然是一项重大挑战。此外,在目标重识别的有效性方面,现有文献算法与实际工业应用上的需求仍然存在很大差距。与人脸识别不同,行人和车辆重识别算法在监视系统中仍不能显示出可靠的性能。
本文的主要目的是为户外监控录像中的目标检测和重新识别开发更有效的学习方案。为此,本文介绍了三种主要的基于深度学习的模型,其中一种模型用于合理解决室外监控视频中小型行人的实时检测问题,另外两种用于对象重识别的新的深度学习方案。本论文的核心贡献和创新概括如下:
(1)目前监视摄像机已被广泛使用,然而在某些情况下,为了扩大覆盖范围,它们的安装距离很远,这使得视频中的行人以不同的大小出现。为了更好地检测由子弹监视摄像机采集的视频帧中的行人,设计有效的检测算法显得十分必要。此外,由于速度通常与精度成反比,效率和质量之间存在矛盾,使得构建基于深度学习的算法并在低计算资源上运行是一个巨大的挑战,而这在现有文献中尚未得到有效解决。为此,本文提出了一种快速,轻量和基于自动缩放框架的神经网络,用于室外监视场景中的小型行人检测。通过有针对性的虚拟自动缩放技术,将输入帧分为非重叠图块并仅关注相关图块来自适应放大输入帧。在不牺牲检测精度的前提下,得到了一个在低计算资源下运行的全卷积行人检测模型。针对小型行人检测问题,现有文献的大部分解决方案都集中在CNN的结构和大小上,这反过来又会导致速度的急剧下降
(2)由于某些身份之间的差异极小,使得获得有效的特征来进行重新识别和验证成为一项艰巨的任务,例如两辆具有相同颜色、型号和品牌但具有不同ID的车辆。此外,在推断阶段,查询图像的视点可能不同于在图库中需要检索的那些视点。但不管其视点如何,其结果都期望从有效的模型中学习相同对象标识的特征表示。与人脸验证不同,大多数现有的基于深度学习的模型对行人/车辆的重识别能力远非完美。本文通过设计能有效导出变分特征的新模型,可进一步提高行人/车辆的重新识别性能。对此,我们提出了一种新的基于特征的学习方案,即监督变分特征学习(VFL)。现有的重识别方法往往会推导出几千到几万个维度的特征,而我们的模型用于行人和车辆有效表示的特征维度可低至256。其次,我们从VFL中引入了一个扩展框架,以从多角度学习车辆的有效表示。扩展框架的关键在于两个方面:首先,我们采用提出的变分特征学习(VFL)来生成更具判别力的变分特征。其次,使用长短期记忆(LSTM)来学习单个对象的不同视点的内部特征。LSTM还充当编码器以减小特征尺寸。
(3)大多数最新方法都将度量(相似性)学习方案用作其模型的基石或最重要的部分。该学习方案指导神经网络生成更多区分特征,并在人脸识别方面显示出非凡的性能。然而,就重识别精度而言,这种学习方法在车辆重识别上的性能仍然不能令人满意。对此,本文引入基于多标签的相似性学习(MLSL)进行车辆重识别。作为一种有效的基于深度学习的模型,MLSL模型对车辆的表示具有较好的鲁棒性。总体而言,提出的模型包括两个主要部分:第一部分是基于多标签的相似性学习器,对车辆的三个不同属性(车辆ID、颜色和类型)使用Siamese网络。第二部分是一个常规的基于CNN的分类器,用于学习带有车辆ID属性的特征表示。提出的MLSL模型由这两部分共同训练。
对于本文提出的每一个深度学习模型,我们通过对15个不同数据集的大量实验验证了其有效性。这些实验经过精心设计以验证每个模型的模块,并将它们的性能与最近的相关方法进行比较。
本文的主要目的是为户外监控录像中的目标检测和重新识别开发更有效的学习方案。为此,本文介绍了三种主要的基于深度学习的模型,其中一种模型用于合理解决室外监控视频中小型行人的实时检测问题,另外两种用于对象重识别的新的深度学习方案。本论文的核心贡献和创新概括如下:
(1)目前监视摄像机已被广泛使用,然而在某些情况下,为了扩大覆盖范围,它们的安装距离很远,这使得视频中的行人以不同的大小出现。为了更好地检测由子弹监视摄像机采集的视频帧中的行人,设计有效的检测算法显得十分必要。此外,由于速度通常与精度成反比,效率和质量之间存在矛盾,使得构建基于深度学习的算法并在低计算资源上运行是一个巨大的挑战,而这在现有文献中尚未得到有效解决。为此,本文提出了一种快速,轻量和基于自动缩放框架的神经网络,用于室外监视场景中的小型行人检测。通过有针对性的虚拟自动缩放技术,将输入帧分为非重叠图块并仅关注相关图块来自适应放大输入帧。在不牺牲检测精度的前提下,得到了一个在低计算资源下运行的全卷积行人检测模型。针对小型行人检测问题,现有文献的大部分解决方案都集中在CNN的结构和大小上,这反过来又会导致速度的急剧下降
(2)由于某些身份之间的差异极小,使得获得有效的特征来进行重新识别和验证成为一项艰巨的任务,例如两辆具有相同颜色、型号和品牌但具有不同ID的车辆。此外,在推断阶段,查询图像的视点可能不同于在图库中需要检索的那些视点。但不管其视点如何,其结果都期望从有效的模型中学习相同对象标识的特征表示。与人脸验证不同,大多数现有的基于深度学习的模型对行人/车辆的重识别能力远非完美。本文通过设计能有效导出变分特征的新模型,可进一步提高行人/车辆的重新识别性能。对此,我们提出了一种新的基于特征的学习方案,即监督变分特征学习(VFL)。现有的重识别方法往往会推导出几千到几万个维度的特征,而我们的模型用于行人和车辆有效表示的特征维度可低至256。其次,我们从VFL中引入了一个扩展框架,以从多角度学习车辆的有效表示。扩展框架的关键在于两个方面:首先,我们采用提出的变分特征学习(VFL)来生成更具判别力的变分特征。其次,使用长短期记忆(LSTM)来学习单个对象的不同视点的内部特征。LSTM还充当编码器以减小特征尺寸。
(3)大多数最新方法都将度量(相似性)学习方案用作其模型的基石或最重要的部分。该学习方案指导神经网络生成更多区分特征,并在人脸识别方面显示出非凡的性能。然而,就重识别精度而言,这种学习方法在车辆重识别上的性能仍然不能令人满意。对此,本文引入基于多标签的相似性学习(MLSL)进行车辆重识别。作为一种有效的基于深度学习的模型,MLSL模型对车辆的表示具有较好的鲁棒性。总体而言,提出的模型包括两个主要部分:第一部分是基于多标签的相似性学习器,对车辆的三个不同属性(车辆ID、颜色和类型)使用Siamese网络。第二部分是一个常规的基于CNN的分类器,用于学习带有车辆ID属性的特征表示。提出的MLSL模型由这两部分共同训练。
对于本文提出的每一个深度学习模型,我们通过对15个不同数据集的大量实验验证了其有效性。这些实验经过精心设计以验证每个模型的模块,并将它们的性能与最近的相关方法进行比较。