论文部分内容阅读
目标检测是计算机视觉感知领域的研究热点,并且在视频监控和自动驾驶领域有着广泛的应用前景。但是,当前基于卷积神经网络的目标检测方法在面对复杂场景、目标尺度变化大以及目标间相互遮挡时检测结果并不理想。针对上述问题,本文围绕基于卷积神经网络的目标检测方法展开了深入研究,主要研究成果如下:(1)本文对SSD(Single Shot multibox Detector)做了改进,提出了一种基于特征融合的目标检测方法(SingleNet)。该算法将多层卷积神经网络特征映射到相同维度后进行融合,从而增强特征的表达能力。为了更好的估计出边界框,该方法应用一组多尺度多长宽比的稠密锚点框来回归目标边界框。此外,SingleNet很容易部署到目标检测系统中。在PASCAL VOC2007目标检测数据集上,SingleNet的平均查准率均值(mAP)达到了0.776,与同类方法相比具有一定的优势。(2)本文提出了一种双分支人脸检测方法(Dual Shot Face Detector,DSFD)。该方法引入一个特征增强模块产生原始特征层的对偶层来挖掘图像蕴含的内在语义信息。针对原始特征层和对偶特征层,该方法采用两组锚点框计算逐级锚点损失函数,该损失函数可以加快模型的收敛速度。为了更好的初始化回归器,DSFD使用了一种新的数据增广算法和锚点框设计策略来改进锚点框匹配方法。在WIDER FACE数据集上,DSFD的平均查准率均值是easy:0.966、medium:0.957、hard:0.904;在FDDB数据集上,DSFD的平均查准率均值是discontinuous:0.991、continuous:0.862。本文方法的结果均优于当前主流的基于卷积神经网络人脸检测方法。(3)本文提出了一种基于候选区域的目标检测集成框架,该框架应用候选区域对特征图像重新采样,可以得到比SSD更好的精度。本文给出了三种基于候选区域的目标检测集成模式,第一种是将多个基于候选区域的检测器结果通过非极大值抑制融合来提高检测框的置信度;第二种是对特征采样后的检测步骤(RCNN)进行串行级联以调整检测框的质量;第三种是将特征采样后串行级联的最后一级并行融合,在不增加计算量的情况下可以有效提升检测精度。此外,面对自动驾驶训练数据有限和目标尺度变化大等问题,该框架通过对训练图像的规则裁剪来增广训练数据。在BDD100K自动驾驶数据集上,本文的提出的集成目标检测方法平均查准率均值是0.3411。在2016年神州专车深度学习无人驾驶挑战赛中,集成目标检测方法的平均查准率均值为0.829并获得了该项赛事第一名。