论文部分内容阅读
图像语义分割(Semantic Segmentation)是计算机视觉领域经典的任务之一,它属于高层次的视觉任务并且在图像理解中扮演着及其重要的角色。图像语义分割属于密集像素分类问题,它的目的是为图像中每个像素点进行准确分类。图像目标检测(Object Detection)则是计算机视觉中另一个经典任务。相对于图像语义分割,图像目标检测属于计算机视觉的中层次任务,它的目的是为图像中存在的物体进行分类并找到其所对应的包围框。图像语义分割和图像目标检测任务都是由分类和定位两个子任务组成。近年来,深度学习(Deep Learning)在计算机视觉领域中发展迅速,而卷积神经网络(Convolutional Neural Networks,CNN)作为深度学习的重中之重,愈来愈多的研究者将目光聚焦于此。相对于传统的图像处理算法,卷积神经网络能够高效地提取图像特征,基于此特点,卷积神经网络也为图像语义分割和图像目标检测任务提供了新的研究思路。目前大部分的卷积神经网络是为图像物体分类而设计的,并不能够直接用来解决语义分割或者目标检测问题。这种网络的深层可以很好地提取语义信息,这些语义信息虽然对物体分类有益,但是缺失了大量的位置信息;相反的,浅层提取的特征虽然具有丰富的位置信息,但是却缺乏语义信息。基于这些研究发现,本文主要进行了如下研究:(1)本文提出了一种通用的语义分割架构-上下文信息聚合网络(Contextual Aggregating Network,CAN),它是由骨干网和上下文融合网络组成,能够很好地利用卷积神经网络的上下文信息解决语义分割任务(利用浅层的位置信息解决定位子任务,利用深层的语义信息解决分类子任务)。CAN提出了上下文卷积单元(Context Convolutional Unit,CCU)来对骨干网中间层的信息进行精炼提取,再通过多分辨率融合模块将高层次的语义信息和低层次的位置信息融合,最终通过输出卷积产生更为准确的语义分割输出。此外,本文还使用端到端的方式训练CAN,这种训练方式可以有助于提高语义分割算法的性能。(2)为了在图像语义分割的分类和定位子任务中取得更好的平衡并解决目前大部分语义分割架构存在的特征映射不充分的问题,本文提出了双向上下文信息聚合网络(Bi-directional Context Aggregation Network,Bi CANet),它是由骨干网,上下文压缩映射模块(Contextual Condensed Projection Block,CCPB),双向信息聚合模块(Bi-directional Contextual Interaction Block,BCIB),通道注意力模块(Channel Attention Block,CAB)以及多尺度上下文融合模块(Multi-scale Context Fusion Block,MCFB)组成。Bi CANet架构去除了骨干网中对定位任务有害的池化层。并设计了CCPB来对骨干网中的特征做进一步的精炼提取。为了充分融合和利用骨干网中上下文信息,Bi CANet提出了BCIB对精炼提取后的浅层位置信息和深层语义信息进行更好的特征融合,再将融合后的特征通过CAB进行通道筛选。最后Bi CANet提出了MCFB来将特征图更好地映射到语义分数图,从而得到更佳的语义分割精度。(3)图像目标检测任务同样存在分类和定位子任务不可兼得的问题,为了解决目标检测任务中这一问题并验证本文提出的用于语义分割任务的优化思想在图像目标检测任务上同样有效,本文提出了上下文信息聚合检测网络(Single-Shot Contextual Aggregating Network for Object Detection,CADet)。定性和定量的实验结果证明,本文提出的语义分割算法在CITYSCAPES,PASCAL VOC2012以及ADE20k三个数据集上的分割性能均达到了当前最高水平(State Of The Art,SOTA)。本文提出的目标检测算法借鉴了本文所提出的语义分割算法思想,实验结果证明了该目标检测算法在数据集PASCAL VOC2012上具有一定的优越性,并且验证了本文提出的用于语义分割任务的优化思想对于解决目标检测任务中相似问题具有一定的通用性。