论文部分内容阅读
图像语义分割是使计算机像人类一样理解复杂场景中重要的一步,也是计算机视觉领域的研究热点之一,该任务是为了便于图像分析而为图像中的每个像素分配标签的过程。随着深度学习在计算机视觉领域的不断突破,图像语义分割也受到越来越多计算机视觉和机器学习研究人员的重视。本文的研究工作主要包括了以下两个方面:(1)针对全卷积网络在进行语义分割时容易丢失细节信息,造成分割后的结果粗糙,以及特征提取网络运算量大的问题,对比提出一种基于全卷积网络的改进算法,主要在特征提取和上采样过程做出改进。使用若干个深度可分离卷积块进行特征提取,相较于全卷积网络的特征提取网络减少了模型参数和运算量;全卷积网络在上采样过程中直接通过反卷积增大特征图的尺寸,丢失了很多细节信息。针对此问题,我们在上采样过程中使用了金字塔池化模块,同时通过将上采样过程得到的特征图与特征提取过程中相同尺寸的特征图在通道维度拼接在一起,实现多尺度特征融合。因此,改进后的网络能够聚合更多的上下文信息,有效捕获丰富的多尺度信息,减少信息的丢失。在PASCAL VOC数据集以及Cityscapes数据集上进行的实验结果表明,与其他深度学习算法相比,该方法具有更好的分割效果。(2)视网膜血管的精确分割对于一些疾病的早期诊断来说具有重大的指导意义。我们提出了一种基于编码器-解码器结构的视网膜血管图像分割算法。在编码器阶段,使用Inception模块对图像进行特征提取,采用不同尺度的卷积核可以获得图像的多尺度信息;为了能够使得网络可以感知得到不同尺度的细小血管,提升对细小血管的分割精度,在解码器阶段,使用了多个金字塔池化模块来聚合更多的上下文信息,利用多尺度的局部区域特征融合来提升细小血管分割的效果;此外,在上采样的过程中利用特征融合方法融合低阶语义特征来获得更多的底层细节信息,进一步提升视网膜血管图像的分割精度。通过在DRIVE和STAER眼底图像数据集上进行实验,验证了该方法的有效性。