论文部分内容阅读
作为当前计算机视觉领域一个具有挑战性的基础研究方向,行人检测问题在过去几十年里一直备受关注。数学上,作为非凸优化的一个应用,基于深度神经网络模型的行人检测算法已经取得了突破性的进步。尽管如此,在面临实际的复杂生活场景时,当前几乎还没有算法能同时满足检测准确度和速度的要求。针对这一研究问题的复杂性,本文具体研究了两类检测问题:(1)多尺度的行人检测;(2)严重遮挡的行人检测,最后试图在保证较高计算速度的前提下提升算法在上述两类复杂场景下的检测精度。当前基于深度学习的行人检测算法主要分为两阶段方法和单阶段方法。两阶段方法由于需要在特征预测前生成候选区域,因此该类方法一般检测速度受限,难以满足实际场景的检测需求。单阶段方法相较前者速度占优,但其提取到的特征信息单一,表达能力有限,导致该类方法在需要利用底层信息的小尺度行人检测任务上表现不佳。此外,传统行人检测方法仅对特征图进行一次预测,导致算法对小尺度行人的定位能力不足,当行人存在严重遮挡时则表现更差。本文将着眼于单阶段方法,拟在保持其相对于两阶段方法速度优势的同时,提升其检测精度。为此,本文提出了一种基于多层级语义融合和多级预测器的单阶段数学模型,该模型相较于传统的单阶段方法主要有两方面改进:(1)融合多层语义信息,丰富特征表达。具体而言,在特征提取阶段,将原始图片输入到可融合多层级语义的特征提取网络中,然后自顶向下,逐层地向低层特征中融入上一高层特征的语义信息,最后得到融合局部信息和全局信息的特征表达。本文模型在Caltech行人检测数据集上进行评估,实验结果表明改进方法的行人漏检率更低。(2)多阶段预测行人,增强定位能力。在改进的框架中,模型先从特征提取网络中提取到不同尺度的特征图,然后将其送入级联的预测器中。在模型训练时,使用上阶段预测的结果优化当前阶段的预测器,使得预测位置按阶段逐步靠近行人的真实位置。实验结果表明,改进方法可在速度损失较小的情况下使检测准确度得到较大提升。进一步分析发现,本文改进的模型在所有Caltech测试子集上的检测表现均比传统的单阶段方法更优,包括不同尺度和不同遮挡情况的检测任务。此外,我们的模型在检测难度更大的CityPersons数据集时也比传统单阶段方法性能更好。最后,同当前表现领先的两阶段方法相比,本文改进的方法在准确度与之具有一定竞争力的情况下保有一定程度的速度优势。