论文部分内容阅读
图像语义分割与场景理解是计算机视觉的核心问题之一,旨在对图像的每个像素根据已知的类别集合进行分类。在自动驾驶、自拍肖像画、增强现实等诸多应用场景下,高效而精确的场景理解算法不可或缺。因此,如何实现快速鲁棒的图像语义分割算法越来越受到人们的关注,这也是计算机视觉研究要实现完全地理解场景的主要问题。在最近几年中,研究者们已经提出了许多不同的算法用以解决该问题,其中包括利用传统的机器学习方法和图像特征技术,以及最近被广泛采用的深度学习方法。本文基于不同的技术基础和应用场景提出了三种不同的图像语义分割算法。具体地:首先,本文提出了一种基于标签传输的图像语义分割算法。该算法通过搜索查询图像的近邻已标注图像来获得语义分割结果。本文的主要工作是优化近邻已标注图像的搜索精度和速度,并提出了一种称为稀疏乘积量化(sparse product quantization)的近似最近邻搜索算法。通过结合软分配的思想以及乘积量化的策略,本文提出的方法不仅能够达到更低的量化误差下限从而能够得到更精确的近似结果,而且还可以减少搜索的计算代价。为了展示算法的准确度和效率,本文不仅在多个近邻搜索数据集上评测了算法的近似搜索性能,并且在语义分割数据集上验证了该算法应用在基于标签传输的图像语义分割上的有效性。其次,本文提出了一种基于图像集的协同分割算法。为了提高分割算法的鲁棒性,本文引入了一个称为注意力(attentiveness)的度量值。与其他方法相比,通过计算图像中所有对象的注意力值,算法可以在含有噪声图像集合上有效地进行协同分割。此外,为了实现协同分割图像集包含更加相似的目标前景,本文进一步地在图像集上采用了子类聚类。对于理想的协同分割图像集,本文提出了一种结合局部形状先验和全局形状先验的协同分割算法。通过求解能量最小化问题并利用初始的分割结果来迭代更新形状先验,协同分割的结果得到进一步提升。本文在多个数据集进行实验并验证了我们提出的算法的鲁棒性。最后,本文介绍了一种基于深度学习的快速图像语义分割算法。虽然基于卷积神经网络的许多方法都取得了显著的分割效果,但由于大网络结构昂贵的计算开销,这些方法仍然存在着处理速度较慢的问题。我们通过在小网络上构建算法,并结合两个新提出的模块来改进分割算法从而避免计算开销过大的问题。我们提出的第一个模块称为层次带孔模块,其由多层次的带孔卷积层结构组成并能够直接进行多尺度特征处理。第二个模块被称为特征提炼模块,其作用是精化由于网络的池化操作而变粗糙并丢失空间细节的特征。该模块主要通过利用跳转结构和辅助损失计算来实现。本文最后的实验结果表明,我们提出的方法比目前最快的图像语义分割算法速度快两倍,并且取得更好的分割效果。