论文部分内容阅读
随着计算机、相机等设备性能的不断提高,机器学习的发展上升到了一个全新的阶段。同时,由于人工智能的迅速发展,人脸识别、自动驾驶等新兴产品的不断涌现,相关应用对目标识别、语义分割和场景理解等技术的要求也不断提高。图像的语义分割任务在图像处理领域中发挥着重要的作用,通过对给定图像中每个像素点做标记,判断每一个像素点所属的目标类,以此获得所需要的像素级别的语义分割图。其分割结果的好坏将直接影响后续场景理解任务的优劣,因此,有关图像语义分割任务的研究在图像处理领域中具有非凡的意义和广阔的前景。传统图像分割算法是根据图像中目标自身特征进行相关的特征提取,不适用于现在的复杂场景,同时分割效率和精确度远远达不到各类任务的要求。基于深度学习的图像分割算法始于全卷积网络(Full Convolutional Network,FCN),此后,许多优秀的语义分割网络模型就开始不断涌现,如ResNet、PSPNet、SegNet、ENet网络等。这些网络模型能够实现很好的分割效果或者达到很高的分割速度,但是它们没有做到网络分割精确度和预测速度之间的平衡,无法同时满足对精确度和实时性都有要求的应用产品。针对这些问题,论文提出了改进的语义分割网络,具体的研究工作如下:(1)论文针对Resnet-50模块做了改进,并将该模块用于基础特征的提取。用空洞卷积替换了原来的普通卷积,同时,对模块的通道数进行削减。在不同分辨率以及不同尺度下,基础特征提取模块将原始图像通过两个分支进行特征采样,并且这两个分支参数共享。该方法可以在增大卷积核感受野的同时,减少网络参数,提升网络运行速度。(2)为了使网络具有更好的尺度多样性,提出了基于互质因子的DenseASPP模块。此模块用于对特征图做进一步的特征处理,能够在削弱空洞卷积带来的网栅效应的同时,使得网络获得更多尺度的特征信息,提升网络分割效果。同时,在该模块中采用全局平均池化的方式汇集各空洞卷积层处理后的特征图,可以更方便的对特征图进行分类。这种池化层没有超参数,不会增加网络的计算量,同时可以避免过拟合的现象。(3)对于网络的三分支结构,使用级联特征融合单元模块进行特征图的融合,可以获得更加精细的分割图。同时,在模块中使用标签引导策略,提高网络分割的精确度。使用加权的交叉熵损失函数使得网络分割不过分地依赖某一个分支。(4)将该算法模型在Cityscapes数据集上进行实验,通过与PSPNet、SegNet等网络的实验结果进行对比,表明了网络的有效性。