论文部分内容阅读
图像语义分割是指对图像进行分割并加上语义标注可以直观的表达图像区域所包含的信息以及各区域间的关系。因此,在图像的场景理解、分析、识别以及跟踪检测上具有不可替代的作用。传统图像分割方法仅仅对图像进行了简单粗糙的分割,且对于复杂图像,分割结果较差。引入深度学习的方法能够对图像进行端到端训练并对图像实现像素级的分割和识别。为提高分割的精度和准确率,使用深度学习的方法对图像进行语义分割具有十分重要的研究意义。本文使用一种改进的卷积神经网络对图像进行语义分割。一方面采用一个SegNet分割网络对于特定道路场景的图像进行语义分割,针对输入图像的质量直接影响SegNet网络分割结果以及分割场景单一的问题,本文对输入图像进行预处理和采用融合多尺度方法使网络能够学习多尺度语境特征。另一方面对采用融合多尺度的SegNet网络模型进行训练,针对多场景图像如何进行语义分割的问题,选择合适训练集,不断调整模型的网络参数以及网络中使用的一些函数,例如优化函数、损失函数等。本文的主要研究工作包括以下三个方面:(1)针对输入图像的质量直接影响了SegNet网络的分割结果的问题,本文对输入图像先进行预处理,对输入图像进行去噪,在减少图像中噪声的同时尽可能完整地保留图像的有用信息,对预处理前后的分割结果进行分析比较。(2)针对SegNet分割网络仅能对特定道路场景的图像进行分割,分割场景单一的问题,采用融合多尺度的方法使网络能够学习多尺度语境特征,在给定的特征层上面使用不同采样率的空洞卷积进行有效的重采样,将各个空洞卷积分支采样后的结果融合到一起得到最终结果。(3)针对模型结构复杂且参数量多的问题,对改进的模型进行训练和优化。本文采用PASCAL VOC数据集作为模型适合的训练集,不断调整模型的网络参数以及网络中使用的函数。对使用不同函数的网络模型的分割结果进行对比,选择合适的函数,达到优化模型的效果。