论文部分内容阅读
对图像中的物体进行识别和定位已经从比较学术的问题变成和我们的生活息息相关的事情。目标检测是这些问题的底层技术,也是计算机视觉领域的基础问题之一。作为目标检测的实际应用之一,行人检测的目标是从图像中对行人目标进行检测和定位,可以使用在很多领域中,如监控、无人驾驶。相比一般的目标检测问题,行人检测的难点主要在两个方面。首先行人检测一般是从监控画面检测目标,而摄像头一般距离实际目标比较远,造成行人的尺寸通常很小而难以被检测到。第二点是行人的外观变化很大,并且包含两种变化,一种是尺寸,即行人由于具有较大的距离差异,会有多种差别很大的尺寸;另一种是外形,主要由不同的光照条件、行人的姿态和方向以及遮挡物造成。这种多变问题带来的一个影响是图像中的背景物体,如邮筒、垃圾箱等很容易与行人目标混淆。为了解决以上问题,本文主要进行了如下的工作:分析了目前被广泛使用的深度学习技术,比较了目前不同的模型结构在大型数据集上的识别性能;提出在主干卷积神经网络模型的多个不同尺度的特征上生成候选区域的方法,让候选区域的选取能够覆盖更多尺度,从生成候选区域的输入角度减少行人尺寸小的影响;提出在优化候选区域时,使用反卷积操作放大主干卷积神经网络中的特征,以融合来自多个不同层级的卷积层输出的特征,使得到的特征同时具有丰富的低层视觉特征和高层语义信息,以及使用归一化操作避免无效融合,通过让不同层级特征互补解决行人目标多变的问题;提出通过使用对样本加权的损失函数,减少简单样本对于模型参数的影响并提高困难样本的贡献,从而解决训练样本不均衡、目标外形变化大、易与背景混淆的问题。