论文部分内容阅读
随着大数据时代的到来,每天产生大量的图片和视频数据,计算机视觉作为对图片进行处理的计算机技术,越来越多的被应用到日常生活中来,如目标识别,目标检测,语义分割和目标追踪等。而随着计算机技术的发展,尤其并行计算,高性能计算和GPU技术的发展,计算机视觉近年来得到迅速的发展。目标检测作为计算机视觉中最基本的问题,更是取得了突破性进展,由于其重要性以及性能的提升,增加了越来越多的对计算机视觉的需求,如活动识别,自动驾驶,智能监控系统、军事目标检测及医学导航手术中手术器械定位等,而这增长的需求又同时催生了目标检测的技术发展。针对目标检测领域,本文的工作聚焦在室内场景人员检测,主要基于深度学习方法。本文探索了在有监督数据的情况下,基于深度学习的人员检测,包括基于深度网络和递归网络的室内场景人员检测和基于区域特征和局部特征融合的人员检测。同时还探索了在大数据时代,在无监督或者弱监督的情况下,如何进行人员检测,提出了一个基于视频的弱监督的人员检测方法。因此,本文的工作主要概括为以下三个方面:(1)使用了一种基于卷积网络和递归网络的室内场景人员检测方法。由于室内场景的光线,人员尺寸,外表等的变化,本文使用一个深度卷积网络来提取场景内的目标特征,然后将其进行编码成深度特征,最后使用递归神经网络来解码深度特征成目标框。具体而言,本文先将图片变成一个网格,每个网格是一个1024维的向量,每个向量对应输入图片的的一个区域。这1024维的向量编码了相应输入区域的特征,携带了丰富的信息如目标的位置信息。LSTM单元从这个表示向量获取信息,然后作为一个解码器来解码区域特征。对于递归网络解码的每一步,LSTM单元输出一个新的包围框和相应的分数,前一个没有预测的人会在当前步骤输出。同时包围框的分数鼓励以递减的序列产生。当某个LSTM输出的分数低于某个阀值的时候,停止信号产生。最后收集输出结果并作为这个区域内多个实例的最终预测结果。该方法在室内场景有标签的情况下,可以获得很高的检测精度,同时也有很好的检测速度。(2)提出了基于区域特征和局部特征融合的人员检测方法。本节针对室内场景进行人员检测,尤其对稠密场景下的人头进行检测。在稠密场景中检测人头是一个很困难的任务,由于衣服和外表的大幅度变化,人的小尺寸以及一些很强的遮挡。传统的自底向上提框方法和区域提框网络或者召回率低或者精度不高。在这篇文章中,本文通过集成局部头部信息到区域提框模型中,同时提高了人头检测的召回率和精度。本文首先使用一个区域回归网络来预测一个区域内多个人头实例的包围框和相应框的分数,然后使用这些包围框来训练一个局部人头分类器,最后提出一个自适应的融合方法来组合每个候选包围框的区域和局部分数,从而得到一个更精确的包围框分数。本文的融合方法可以自动的从数据中学习最优的超参数,同时本文的算法在一个稠密数据集上取得了很好的效果,检测精度明显超出当前同类最好的方法。(3)提出了一种基于视频的无监督室内场景人员检测方法。虽然在有标签的情况下,人员检测的性能能够达到比较高的水平,但是标签数据往往很难获得,同时数据又不断的更新,因此基于无监督或者弱监督的人员检测方法就十分重要,而这方面相关工作不是很多。因此,本文针对室内场景数据,介绍了一种基于视频的弱监督人员检测检测方法。由于本文关注的室内场景人员检测,因此实际上只需要给定包含人的视频,本文的方法可以自动的学习一个针对该场景的人员检测模型。本文的方法包含两个过程,训练过程和测试过程。训练过程包含多个阶段,其主要包含:1)基于高斯混合模型的前景提取;2)基于聚类算法的前景实例划分;3)基于伪标签的模型训练。而一旦在训练阶段学习到目标检测模型,测试过程只需要输入测试图片,然后端到端的输出检测结果,因此测试是非常方便的。