论文部分内容阅读
行人检测是判断输入的图像或视频中是否含有行人,并准确的找出行人的具体位置。行人检测作为目标检测的一个子方向,在视频监控、行人识别、图像检索以及先进的驾驶员辅助系统等领域有着广泛的应用。由于行人具有非刚性属性,决定了行人检测不同于普通的目标检测,另外存在着许多制约行人检测的因素,如现实场景中背景的复杂多样性、光照变化、行人遮挡、姿态变化、拍摄角度多样化、实时性要求、小目标行人等。这些因素给行人检测带来了巨大的挑战,因此行人检测一直是计算机视觉领域中的研究热点和难点。本文为了提高真实复杂场景下的行人以及小目标行人的检测性能,分别从基于传统手工特征的方法跟基于深度卷积神经网络的方法做了研究,主要研究如下:(1)针对真实场景下的行人检测方法存在漏检、误检高,以及小尺寸目标检测精度低等问题,提出了一种基于改进的SSD深度网络模型的行人检测(PDIS)算法。该算法通过引出更底层的输出特征图改进了原始SSD网络模型,并采用卷积神经网络不同层输出的抽象特征对行人目标分别做检测,融合多层检测结果,提升了小目标行人的检测性能。在扩增的行人数据集上训练的PDIS算法,提高了在真实场景下的行人检测精度。实验表明,PDIS算法在INRIA测试集上测试结果达到93.8%的准确率,漏检率低至 7.4%。(2)针对数据集样本多样性能有效地提升检测算法的泛化能力,本文采集了不同光照、姿态、遮挡等复杂场景下的行人图像,对背景比较复杂的INRIA行人数据集进行了扩充,数据集已在 github 上公布(https://github.com/csust7zhangjm/CSUSTPD)。CSUSTPD中包含学校、街道、车站等不同场景下的样本,组合成一个复杂背景下的真实场景行人数据集,并对训练样本中姿态变化、遮挡、小目标的行人都进行了标注,如:骑自行车、打伞、拥挤的行人等。CSUSTPD使得行人数据集样本背景复杂化、多样化,并大大增加了对小目标行人标注数目,在扩增的行人数据集上训练的PDIS算法,提高了在真实场景下的行人检测精度。(3)针对ACF行人检测器存在误检率高的问题,DeepLabV2算法行人性能评估差的问题,本文对ACF算法和DeepLabV2算法进行融合来提升对行人检测的性能。首先通过ACF检测器检测行人并保存所有检测到的包围框(Bounding box),然后将所有包围框坐标信息映射到语义分割输出图片上,并对每个框映射区域内求取语义分割行人像素所占的比例,当每个包围框的中行人像素所占比例面积大于某个阈值时确认检测为行人,否则为误检的行人窗口并对其删除。实验结果表明,相比原始的ACF检测结果,本文ACF和DeepLabV2的融合算法降低了 ACF算法检测行人的误检率,增加了对行人检测的鲁棒性。