论文部分内容阅读
近十年,随着硬件设备GPU的并行计算能力提升,深度学习领域得到迅猛发展,其中的卷积神经网络在计算机视觉方面的研究与应用驱动着图像分割技术的向前发展。语义分割是图像分割领域中的一种方法,它可对图像中每个像素进行分类。自2015年全卷积神经网络(Fully Convolution neural Network,FCN)的提出,基于FCN的语义分割方法得到国内外学者的广泛研究,这类方法通过大量参数拟合数据分布可处理复杂的数据集。由于硬件算力的限制,多个领域对高精度实时语义分割方法的需求非常迫切。但是,当前大多数语义分割方法更关注如何提升精度而忽略分割速度,而现有的实时语义分割方法存在分割精度不足的问题,针对这个问题,本文提出了基于DeepLabv2改进的实时语义分割方法。在Cityscapes和Pascal VOC2012两个数据集上的实验分别取得68.2%mIoU和75.3%mIoU,其分割速度分别取得31FPS和87FPS。与DeepLabv2相比,本文方法具有以下三方面改进:(1)对网络结构进行改进。在编码阶段采用深度可分离卷积降低计算量,在解码阶段增加特征金字塔网络(Feature Pyramid Net,FPN)解码特征的过程以减少空洞金字塔池化网络(Atrus convolution Spatial Pyramid Pooling,ASPP)参数的数量,进而大幅度降低高分辨率特征与参数的点积运算,提升了模型的分割速度。(2)对损失函数进行改进。本文认为,在语义分割中每个特征点与像素存在一对多的映射关系,而多个像素则可构成子图。从该观点出发,本文将Triplet Loss引入语义分割中监督模型对子图进行度量学习,使模型提取到的特征在欧式空间中具有类内距离小、类间距离大的优点,进而增加模型分割能力。(3)找出数据集中样本的重要性权重。本文认为语义分割数据集中存在严重的样本不均衡问题,此问题阻碍了模型分割精度的提升,而手工为多个类别选择合适的样本重要性权重较为困难,为缓解此问题,本文提出基于数据统计的方法选择样本重要性权重。总体而言,本文将DeepLabv2模型的神经网络架构优化至可实时分割,然后提出使用Triplet Loss作为损失函数和样本重要性权重提升模型分割精度。