论文部分内容阅读
行人检测是计算机视觉的重要任务之一,其目标是判别一幅图像或者视频序列中是否存在行人并给出精确位置。由于行人检测关注对象是人这类特殊而重要的目标,而且还可以为图像视频检索、目标跟踪和图像分类等其它计算机视觉相关领域提供支持,因此具有重要研究意义。行人检测可应用于智能视频监控、车辆辅助驾驶以及智能机器人等领域,具有实际应用价值。 行人检测中,目标表示和目标定位是其检测框架中最主要的两个部分。表示能力强的中层特征能够增强检测模型的判别性,提高行人检测的性能。描述精确的底层特征能够用来获得行人候选区域,在全监督行人检测中可以降低检测时间,在无监督行人检测中可以降低样本搜索空间。本文针对行人检测的底层和中层特征表示,以及其在全监督和自学习行人检测器中的应用进行研究,主要工作如下: (1)提出了基于侧输出残差网络(Side-output Residual Network,SRN)的行人底层特征提取方法。该方法使用残差单元(Residual Unit,RU)拟合残差单元的输出与真实值之间的误差。通过自深到浅依次堆叠残差单元,侧输出残差网络以拟合多尺度上的误差流替代直接拟合输出。该方法不仅可以抑制复杂背景,还可以有效地选择对称轴或边缘的尺度。将其扩展成多分支侧输出残差网络结构后,可以同时提取输入图像的对称性信息和边缘信息等底层特征。 (2)提出了基于贝叶斯得分重排序(Baysesian Scoring based Proposal Reranking)的行人候选区域提取方法。传统方法采用超像素合并的候选区域提取方式虽然能够实现精确定位,但由于无法计算置信度而存在大量冗余;采用置信度的候选区域提取方式虽然定位不精确但是可以排序。本文根据这两类方法的互补性提出了基于贝叶斯得分重排序的候选区域提取方式。对于一幅输入图像,通过多分支侧输出网络残差同时获得边缘响应图和对称性响应图,并且使用这两个响应图在贝叶斯框架下计算超像素合并产生的冗余区域的得分。选取得分高的候选区域子集在保证了召回率的前提下,降低了冗余度。 (3)提出了基于PCA卷积特征(PCA Filters Based Convolutional Channel Features,PCA-CCF)的全监督行人检测方法。在特征设计上借鉴了卷积神经网络的优点,不同的是使用PCA得到简化的卷积核,对聚合通道特征进行张量运算。该特征不仅通过PCA滤波器的正交性对聚合通道特征去相关,而且增加了更多的特征通道,以此增强表达能力。在检测框架上借鉴了R-CNN的思想,通过弱分类器获得一些候选区域之后,采用PCA-CCF并结合级联AdaBosst分类器进行精细分类。实验表明,PCA-CCF不依赖于深度学习框架缺能够有效地提高行人检测精度。 (4)合作提出了基于渐进优化模型(Progressive Latent Model,PLM)的自学习行人检测方法。全监督行人检测中,需要大量的标注样本,工作量庞大。对于特定场景的监控视频,自学习行人检测器通过渐进优化方式,迭代地进行目标发现、目标增强和标签传播,进而达到不使用任何标注样本而仅通过自动学习的方式得到行人检测器的目的。相比于传统的隐模型方法,这种渐进优化模型增加了空间约束项,在降低候选目标搜索空间的同时加强了目标定位的准确性,同时,使用基于图模型的标签传播算法获得更多的正例样本以及难反例样本,增加了分类器的多样性与判别性。