论文部分内容阅读
图像实例分割是计算机视觉方向的基本任务之一。给定一幅图像,实例分割任务旨在对图像中某些类别的实例进行像素级别的区分。传统的实例分割方法主要分为两类:基于候选框的实例分割方法和无候选框实例分割方法。基于候选框的实例分割方法先利用候选框对物体进行定位,再对找到的物体进行掩膜分割。而无候选框的实例分割方法则利用网络预测像素级别的实例信息,再对图像中的像素进行聚类。在无候选框的实例分割算法中,如何找到合适的实例级信息一直是研究的重点与难点。而在基于候选框的实例分割算法中,一方面,由于掩膜通常在备选区域内部产生,视觉表征的学习受到候选框范围的限制。另一方面,由于掩膜支路分辨率的限制,得到的掩膜结果十分粗糙。为了解决这些问题,提升实例分割算法的性能,得到更好的分割结果,本文将像素亲和性和语义信息显式地引入实例分割任务。本文的主要工作和创新点包含如下三个方面:第一,提出了基于图融合方法的无候选框实例分割算法。该算法将整幅图像作为一个图结构,利用神经网络预测图像的语义信息与亲和性信息作为图中的边,提出图融合方法将图中的像素聚类为不同的集合,最后得到不同的实例。该方法将像素亲和性与图像语义信息结合,并利用图融合算法推断出实例分割结果。实验结果表明,图融合算法可以有效的生成良好的图像实例分割结果,尤其相比于传统算法,图融合方法可以生成更细粒度的实例掩膜。第二,提出了基于全局上下文信息的实例分割算法。首先将语义信息作为辅助监督,加入网络训练中,以此帮助算法学习包含上下文的特征,同时对网络不同支路的输出进行约束,要求网络的掩膜支路输出与语义支路输出保持一致。为了增强对上下文的学习,引入基于自我注意力机制的全局聚合模块。同时,为了保证网络能够学习到位置信息,在掩膜支路引入了位置编码向量。实验结果表明,该方法可以在不引入额外计算开销的情况下在不同的基础网络结构上得到性能的提升。第三,基于像素亲和性的实例分割优化方法。对于基于候选框的实例分割算法,实例掩膜的结果通常由固定分辨率的掩膜支路输出插值得到,这样得到的掩膜往往十分粗糙,边界部分无法贴合物体。为了解决这一问题,提出了基于像素亲和性的实例分割优化方法,该方法首先将图像的像素亲和性与语义信息加入基于候选框的实例分割算法中作为一个辅助监督,帮助网络更好的学习特征。更进一步地,对于预测得到的像素亲和性和语义信息,将图融合算法引入基于候选框的实例分割算法中来,利用预测得到的像素亲和性,结合网络输出的先验,对基于候选框的实例分割算法结果进行优化,以此得到更精细的掩膜结果。实验结果表明,在不同的标准数据集上,该方法都可以提升实例分割算法的性能,得到更精细的掩膜。