论文部分内容阅读
物体检测,即对自然图像中的物体进行分类并找出物体位置包围盒,是计算机视觉中最基本的问题之一。它在实际问题中有着极为广泛的应用,如相机自动聚焦、自动驾驶、机器人导航、图像检索等。传统的物体检测需要使用大量有详细物体位置和类别标注信息的图像数据来进行训练。然而,收集这些详细的标注是十分费时费力的。与之相比,基于弱监督学习的物体检测(简称弱监督物体检测)只需要使用有图像级别标注信息(即标注图像是包含某种物体类别)的图像数据进行训练,而获取这些数据无疑更加容易,如从互联网上使用关键词搜索。因此,大量研究关注在弱监督物体检测。然而,由于自然图像的复杂性,包括物体大小、位置、视角、形状等的变化,以及物体位置标注的缺失,使得弱监督物体检测面临极大挑战。近年来,许多工作将弱监督学习中的经典方法多示例学习引入到弱监督物体检测中,并取得了很好的效果。此外,深度学习的进步极大地促进了计算机视觉的发展,并在弱监督物体检测中取得了突破。本文基于多示例学习和深度学习,对弱监督物体检测存在的问题展开一系列研究,并提出了三种不同的弱监督物体检测网络,其中第一种网络关注于将弱监督物体检测后两步进行端到端联合训练,第二种网络关注于如何更好地学习弱监督物体检测器,第三种网络关注于如何将候选区域提取步骤整合到网络中,且后面网络是前面网络的延伸和扩展。此外,本文还探索了弱监督物体检测的应用。本文的主要贡献有:(1)提出了一种深度区域学习算法以实现基于多示例学习的弱监督物体检测网络。该网络使用基于示例空间的多示例学习方法将候选区域分类结果进行聚合,使得网络可以直接使用图像级别标注作为训练目标;通过基于嵌入空间的多示例学习方法引入新的物体分类任务,并同时训练弱监督物体检测任务和物体分类任务,通过多任务学习来辅助弱监督物体检测;此外,该网络能对候选区域特征提取、候选区域分类、物体分类进行端到端联合训练。在PASCAL VOC 2007和PASCAL VOC 2012数据集上,该网络在弱监督物体检测上取得了高于之前多示例学习方法超过5%的性能,在图像物体分类上得到了高于之前方法约2%的性能。(2)提出了一种候选区域聚类学习算法。该算法对每张图像中的候选区域进行聚类,使得每个聚类对应于一个物体,并将不同聚类看成不同的多示例学习小包,对每个小包再使用基于示例空间的多示例学习方法来学习弱监督物体检测器。此外,该算法也与神经网络结合,能够对候选区域特征提取和候选区域分类进行端到端联合训练。该算法能极大改善之前方法倾向于检测局部物体的问题,并对复杂图像中的物体大小、位置、视角等变化鲁棒。在PASCAL VOC 2007/2012、ImageNet Detection、COCO数据集上,该算法取得了高于之前最好方法平均5%的弱监督物体检测性能。(3)提出了一种弱监督候选区域提取网络。该网络包含粗糙候选区域提取与候选区域重打分两个阶段,能在弱监督的情况下训练基于神经网络的候选区域提取器。此外,本文还将该网络与之前弱监督物体检测网络整合到一个统一的弱监督候选区域提取及物体检测网络中,使得弱监督物体检测的所有步骤能够通过一个网络完成,在弱监督物体检测中极具意义。在PASCAL VOC 2007/2012和ImageNet Detection数据集上,该网络都取得了高于之前方法超过2%的弱监督物体检测性能。(4)探索了弱监督物体检测在图像分类上的应用。本文将弱监督物体检测中的单模式学习拓展到多模式学习,以寻找每一类图像中多种共有的模式,并将这些模式作为词袋模型中的视觉词汇,从而得到图像表示,这些图像表示被用来作为图像分类器的特征输入。该方法在图像中的行为分类数据集Action 40、物体分类数据集Caltech101、场景分类数据集Scene 15、MIT-Indoor 67、SUN 397上都取得了很好的性能,其中,在行为分类数据集Action 40上,该方法取得了高于之前方法16.41%的性能。综上,本文基于多示例学习和深度学习,提出了一系列弱监督物体检测解决方案,并探索了弱监督物体检测在图像分类中的应用,为后续弱监督物体检测相关研究奠定了基础。