论文部分内容阅读
语义分割在图像理解、可穿戴设备以及智能车驾驶中扮演着重要的角色,它的目的是对图像中的每一个像素分类,从而分割出目标的具体轮廓,具有广泛的研究前景和应用价值。传统分割方法受限于精度和速度,不满足复杂场景理解的要求。随着深度学习技术的发展,越来越多的研究者们运用卷积神经网络解决基础视觉问题,涌现出多种不同结构的卷积神经网络模型。自全卷积网络开创性地将分类卷积网络应用到语义分割问题中,促进了语义分割的快速发展,精度和速度上的表现完全超越了传统分割方法。语义分割为每个像素点生成足够的空间语义信息用于复杂场景内容的理解,分割模型的设计通常围绕着降低语义信息损失和增强细节信息展开,不断提升分割精度仍然是现阶段主要解决的问题。在此基础上,本文基于卷积神经网络展开语义分割的深入研究,从多尺度特征整合的角度出发,实现了两种不同结构的语义分割模型。本文的主要工作如下:(1)深入研究了语义分割的关键性技术,包括转置卷积、空洞卷积以及条件随机场等,概括和总结出语义分割问题通用的框架。基于全卷积网络完成语义分割的思路,结合Aligned-Inception-ResNet网络实现了 DeepLab语义分割算法。(2)提出一种基于多尺度特征融合的语义分割模型MsNet,它包含语义特征提取和语义特征融合两个阶段,能够有效消除底层特征与高层特征之间的差异性,整合不同卷积阶段含有的有用信息,从而提升像素分类准确率,减少空间位置模糊。MsNet作为优化分割效果的技巧,能够平滑目标的边缘轮廓,带来更多的上下文信息。以DeepLab分割算法为基准网络,MsNet-4在PASCAL VOC2012数据集上获得5.4%的精度提升。(3)提出一种基于编解码结构的场景语义分割模型AugNet,编码阶段采用DRN(Dilated Residual Networks)网络提取高分辨率的语义特征,有效维持预训练网络的感受野不变。基于第三章提出的多尺度特征整合的思路,解码阶段不同于简单的线性插值方法,将多支路预测的结果和PSPNet金字塔池化模块提取的强空间信息有效结合,加强场景理解的空间线索和局部细节信息。AugNet使用场景数据集CityScapes和ADE20K完成验证,与PSPNet网络相比,分割效果提升显著。