论文部分内容阅读
在本文中,我们关注一个挑战性的问题—基于弱监督的图像区域标注,即在数据集中只有图像层标签这种弱监督信息可以使用。图像区域标注在计算机视觉以及图像信息检索领域中有广阔的应用场景,并且能够在一定程度上打破高层语义和在计算机中图像的低层像素表示之间的语义鸿沟。传统的图像区域标注问题需要大量的带有区域标签的数据,但是标注这些数据是非常耗时耗力的。图像层的标签,对于图像区域标注这较为细粒度任务具有非常的不确定性,但是图像层标签非常容易获得。各种互联网数据的爆炸式产生也为弱监督问题提供了大量的初始数据。弱监督图像区域标注目前仅有较少的研究工作,本文主要有以下贡献:一、对弱监督学习的解决方法进行了完整的综合性介绍。在弱监督学习过程中,由于数据具有不确定性,通常情况下,需要借助上下文的信息来降低样本标签的不确定性,我们称为协同标注。我们首先介绍了KNN和稀疏编码两种方式来寻找目标的上下文信息,同时我们介绍了如何使用这种上下文信息构建语义图以及如何在图上进行标签的传播,本文中我们介绍了两种标签传播的方法,马尔科夫随机游走以及谱聚类。二、提出了基于判别语义的构建上下文的方法。我们注意到,弱监督的图像区域的标注传播主要问题在于如何找到有效的上下文信息进行协同标注,而传统的完全基于相似性的上下文获取方式容易导致过同质化问题,即上下文超像素中的视觉信息以及图像层标签都非常相似,各种语义标签共现现象导致目标超像素的标签具有不确定性。所以我们提出了基于判别语义的上下文查询方式,我们对判别语义进行了定义,在上下文查询中,不仅仅考虑视觉相似性和语义相关性,还考虑判别语义(Discriminative Semantics)的信息。我们提出了如何根据判别语义信息构建判别语义图(Discriminatively Semantic Graph,DSG)。三、我们提出了如何在构建的判别语义图上面进行标签的传播。我们通过构建两种语义图将标签传播分为两个部分,在inter-image图(DSG)上我们考虑不同图像间的上下文信息来得到超像素的标签分布概率。在每个intra-image图上我们考虑每张图像的相邻超像素节点的视觉信息和语义标签来建立能量函数,通过Graph Cuts方法求解能力函数得到最终超像素的标签分配。我们的实验是在两个数据集MSRC-21以及PASCAL VOC 2007上进行的,使用平均类别准确率以及单一类别准确率作为评测的指标。我们的方法在两个数据集的多个单一类别以及平均类别准确率都取得了较高的准确率,进而证明了我们方法的有效性。