论文部分内容阅读
图像分割技术作为其他图像处理方法的基础,一直是计算视觉研究的热点与难点,其在场景解析、自动驾驶等领域发挥着重要的作用。随着人工智能的兴起,基于深度学习的图像分割方法与早期方法相比有了质的飞越。现有基于深度卷积神经网络的全监督图像分割方法均需要大量的像素级标注来提升分割准确率。因此该类方法需要耗费大量的时间和经济代价来获取像素级标注,从而制约分割性能的进一步提升和模型的泛化能力。为解决这一问题,国内外很多学者尝试放宽标注的精确度,提出基于图像级标注的弱监督图像分割方法。图像级标注只包含图像的类别信息,对于目标的位置、轮廓等信息无任何指导性。本文从该研究的重点和难点入手,针对1)如何利用图像级标注获取目标的位置信息;2)如何获取目标的轮廓/形状先验;3)如何利用图像级标注训练分割网络等问题展开深入的研究,各部分研究内容及创新工作如下:针对传统图像分割方法只利用图像底层特征,缺乏形状先验造成分割结果不理想的问题,提出基于形状先验的图像前景目标分割方法。该方法首先提出使用形状的线性表示和FDCM(fast directional chamfer matching)形状匹配算法生成更加准确的且具有类别独立性的形状先验。此过程采用数据驱动机制,省略模型训练过程,从而增强了模型的泛化能力。其次提出融合形状先验的图切算法(graph-cuts)提高分割准确率。实验结果表明该方法在多个数据集上均取得较好的分割结果。针对早期基于深度学习的弱监督语义分割方法缺少位置线索导致分割准确率较低的问题,提出基于位置线索和EM(Expectation-Maximization)算法的弱监督图像语义分割方法。该方法首先提出利用分类网络获取目标的位置线索。其次提出位置线索引导的EM算法。该算法解决了E步像素标签估计不准确的问题,进而训练出较好的分割网络。最后提出一种混合训练策略进一步发挥位置线索的作用。实验结果表明该方法解决了图像级标注中无目标位置信息的问题,其分割性能与早期的弱监督语义分割方法相比有较好的提升。针对分类网络只能识别出目标的判别性区域导致从图像级标注获取的像素标签不完整的问题,提出融合注意力图和显著图的弱监督图像语义分割方法。首先提出一种新的注意力图产生方法,该方法能够挖掘出目标的大部分区域。其次提出逐次擦除显著图获取方法检测出图像的多个前景目标。最后提出融合注意力图和显著图的伪像素标注生成算法并训练分割网络。该过程不仅充分地利用了注意力图的类别信息,又通过显著图补充未被注意力图挖掘到的目标区域。实验结果表明该方法能够获得更加准确的伪像素标注,分割性能也得到了提升。针对融合注意力图和显著图所生成的伪像素标注存在错误标记而无法在训练过程中修正的问题,提出融合Superpixel-CRF优化模型的迭代结构弱监督图像语义分割方法。首先提出Superpixel-CRF(conditional random field)优化模型,该模型利用超像素引入轮廓先验,修正了初始伪标注中存在的错误标记。其次提出一种迭代训练框架,逐步提升分割网络的性能。最后在迭代训练框架下提出两种网络交替训练策略,不仅避免了单一网络的过拟合问题,而且充分地利用了各网络的优点。实验结果表明该方法分割性能优于其他方法,拉近了与全监督分割方法之间的差距。综上所述,本文针对基于深度学习的弱监督图像分割问题展开研究,分别提出基于形状先验的图像前景目标分割方法,基于位置线索和EM算法、融合注意力图和显著图、融合Superpixel-CRF优化模型的迭代结构弱监督图像语义分割方法。本文的研究对于图像分割任务具有重要的理论意义和广泛的应用价值。