论文部分内容阅读
像素级标注任务在计算机视觉领域有着举足轻重的地位,而图像语义分割和显著性检测是其中两个重要的方向。图像语义分割在自动驾驶、医学图像处理和虚拟现实等任务中扮演着重要的角色,旨在给输入图像中的每个像素预测一个类别标签。显著性检测模型旨在将输入图像中在视觉上与背景区域明显不同的物体或区域分割出来,可以为解决弱监督语义分割问题以及其他计算机视觉问题带来积极作用。过去几年,卷积神经网络在物体分类、边缘检测和语义分割等方面均取得了历史性的突破。丰富的多级特征和端到端的训练方式,使得深度学习推动了像素级图像语义分割的发展。现有图像语义分割方法的共同点是直接从输入图像中学习到像素的预测标签,而我们认为引入图像级分类标签的信息可以为像素级的分割任务带来积极影响。在理论方面,我们从信息论的角度分析并讨论了图像级分类标签给像素级分割任务带来的影响。在具体实现上,我们通过有机地结合图像级和像素级标注网络构建了一个叫做12PNet的端到端的语义分割网络。此外,我们还引入了一个生成网络来提供一个辅助的损失函数以进一步约束分割网络的训练。在语义分割标准数据集上的实验结果证明,我们的方法为基准模型的分割效果带来了明显提升。为了减少数据的标注成本,弱监督图像语义分割算法开始得到关注,而显著性检测算法可以为弱监督语义分割带来积极作用,在探索弱监督语义分割算法的过程中我们提出了一个新的显著性检测算法结构。现有基于卷积神经网络的模型,虽然已经可以达到较高的检测准确率,但未能有效利用多尺度的特征和全局语义信息。我们为显著性检测任务提出了一个新的结构GDPNet,其包含两个金字塔结构:特征金字塔网络(FPN,Feature Pyramid Network)和金字塔池化模块(PPM,Pyramid Pooling Module)。FPN可以捕捉潜在的多尺度金字塔层级特征,而PPM通过不同尺度的区域来充分利用全局的语义信息。此外,我们还为FPN设计了“交叉门”结构以及为PPM设计了“单一门”结构,来过滤掉存在于潜在特征中的无关信息。实验证明,我们在5个主流的标准数据集上均达到了目前最好的结果。