论文部分内容阅读
目标检测是计算机视觉领域中最热门的研究方向之一,其目的是为了授予计算机能够在图像中找到物体位置并确定其类别的能力。行人检测作为目标检测的重要分支,在安防、智能驾驶、智能机器人、无人机等领域均有广泛的应用。近年来,深度学习在计算机视觉掀起一阵热潮,大大促进了诸如识别、检测和分割等技术的研究发展,从而解决诸如行人姿势、场景背景、行人密度、行人尺度、光照情况等问题。深度学习有效地提高了检测精度,降低了漏检率,基于此背景,在总结前人研究成果的基础之上,本文对行人检测技术进行了深入研究,主要完成了以下工作:首先,Faster R-CNN是目前最为流行的基于深度学习的通用标检测算法之一,但是,直接将其应用于行人检测,性能无法满足实际应用需求。为了将该算法融入行人检测,本文提出了 一种基于深度学习和逐步迁移策略的行人检测算法:PDA-DLGT。该算法对Faster R-CNN的网络结构进行了修改,同时考虑到目标数据库Caltech与ImageNet的差别极大,结合迁移学习,提出了一种逐步迁移策略,即以INRIA+ETH混合数据库为过渡集,使得网络能够更好地拟合行人数据,所提取的特征更适合于行人。实验证明,这种迁移策略可以使得检测器的漏检率下降5个百分点左右,而且,PDA-DLGT相比JointDeep具有更好的性能。其次,本文对行人检测相比通用目标检测的个性化问题进行了分析,问题的关键主要在于行人目标的尺度较小和复杂背景区域太大这两方面。针对这两个问题,本文针对性地提出了解决方案,结合已有研究工作,提出了一种基于候选区域网络和级联Boosting森林的行人检测算法:PDA-RPNCBF。该算法抽取卷积特征conv33和conv43,并进行特征融合。此外,PDA-RPNCBF引入级联Boosting森林和Bootstrapping来挖掘难负样本,缓解正负样本的不平衡问题。具体而言,PDA-RPNCBF采用了一种“全面渐进”的方式,不仅可以保证负样本的数量,还可以保证负样本的质量,使得检测器的检测精度大大提升。实验证明,PDA-RPNCBF的漏检率仅10.63%,相比PDA-DLGT下降了近14个百分点,优于CCF、CompAct-Deep以及RPN+BF等优秀算法。最后,本文对行人检测中的多尺度问题进行了分析,因为行人的尺度变化范围非常大,且小尺度的行人占多数,而CNN特征的尺度不变性是有限的,所以,本文认为以深度卷积网络为基础的行人检测的多尺度问题不能直接采用通用目标检测问题的处理方法。通过对PDA-RPNCBF的改进,提出了一种基于多尺度候选区域网络的行人检测算法:PDA-MSRPN。该算法延用了 PDA-RPNCBF中的级联Boosting森林,主要对候选区域网络进行了改进,将多尺度因素融入其中,即MSRPN。MSRPN在多个卷积层上构建微型网络生成候选区域,并将所有分支生成的候选区域整合在一起。由于不同分支具有不同的感受野,所以MSRPN可以充分把握住行人的多尺度信息。实验证明,该算法的MSRPN网络相比RPN网络在漏检率方面具有将近2.21个百分点的优势。此外,通过结合级联Boosting森林和Bootstrapping作进一步筛选判决,可使得算法的精度进一步提升。