论文部分内容阅读
语义分割旨在为图像中每个像素分配一个对应的类别标签,并被广泛应用于自动驾驶、人脸分割、遥感探测和医疗影像处理等领域中。现有的全监督语义分割算法需要大量像素级标注的数据驱动训练,数据标注代价昂贵并且十分耗时。因此研究者们提出弱监督和半监督语义分割,利用弱监督标签或部分标注的像素级标签训练可以大大减少数据标注的工作量。另一方面,自注意力机制近两年来在全监督视觉任务中被广泛应用,其通过捕捉不同像素间的长程依赖有效提升了各模型的性能。然而如何将其应用于弱监督场景是目前尚未被深入研究的问题。本文的研究内容为基于自注意力机制的弱监督和半监督语义分割算法,侧重点为弱监督语义分割,目标是在弱监督场景下引入合理的自注意力机制,提高弱监督语义分割的性能。同时在弱监督分割框架的基础上结合半监督信息,充分利用额外的少量像素级标签提升语义分割的性能。考虑到弱监督语义分割问题的核心在于弱标签位置的歧义性,本文通过两种方法从弱标签中恢复物体的位置信息(种子点),包括引入显著性指导和从神经网络内部挖掘,随后将种子点作为伪真值训练全监督语义分割模型。第二章针对现有通过类别激活图挖掘出的种子点过于稀疏的问题,提出了一种基于显著性指导自注意力网络的弱监督和半监督语义分割方法。本章方法采用自注意力机制将物体的信息从最具区分度的部位传播到不具区分度的部位,从而得到高质量的种子点。为了减少在弱监督场景下直接使用自注意力机制带来的不同类别之间错误的信息传播,本章引入了额外的显著性先验来减少前景类别的信息错误地传递到背景区域,同时引入高精度的初始化种子点作为监督来减少不同前景类别之间错误的信息传播。在VOC2012和COCO数据集上的实验表明,本章方法的各个模块均对性能有较大提升。与现有方法的对比表明,本章方法可以取得目前最佳的弱监督和半监督语义分割性能。第三章针对第二章存在的弱监督语义分割模型训练流程复杂的问题,提出了一种基于自注意力机制的端到端弱监督和半监督语义分割方法。本章考虑到图像分类分支得到的类别激活图和基于自注意力机制的语义分割分支得到的分割图之间的互补性,提出将分类和分割分支结合成一个端到端的模型。本章方法一方面将类别激活图和分割图结合起来生成在线的种子点监督分割分支的训练,另一方面利用分割图作为权重,动态计算分类分支中每个像素点对图像级得分的贡献,进一步提高类别激活图的质量。在VOC2012数据集上的实验表明,本章方法的各个模块均对性能有较大提升。和现有方法的对比表明,本章方法性能略逊于目前最优的弱监督和半监督方法,通过重训练将本章方法拓展为多步骤模型后,本章方法达到了和目前最优弱监督语义分割方法相当的性能。