论文部分内容阅读
随着深度学习技术的发展,越来越多的计算机视觉领域的问题需要用深度学习网络来解决,比如图像语义分割问题。而把深度卷积神经网络应用于语义分割领域需要解决三个挑战:其一,步长大于1的卷积操作及池化层的存在对特征提取有极大的帮助,但也会带来图像分辨率减小以及空间信息损失的问题;其二,在恢复原图像大小的上采样操作中,一般的网络只利用深层网络及少量浅层网络的特征,这会导致恢复图像因缺失低层次信息而定位不准或边缘模糊;其三,大多数网络因追求图像语义分割的精准度而使用参数量巨大的深层次神经网络,这使得网络运行时响应速度特别慢。如何保证其实时性也是挑战之一。本文针对这些问题,并且基于已有的工作做出了一些改进:(1)为了能充分利用低层次与高层次特征所包含的全部有用信息,本文通过设计并使用两个并列的网络分别提取低层次所包含的定位信息及高层次所包含的分类等抽象特征信息。在每个网络里都使用了类似ResNet深度学习网络的“残差块”结构,充分融合了每一层的信息。最后将两个并列的网络进行相同尺度的上采样后进行网络融合,将融合后的特征图进行上采样恢复原先图像大小,进而完成图像语义分割任务。基于这些改进,在街景数据集上取得了很好的效果。(2)针对于图像语义分割任务中,分类任务与定位任务天生矛盾的问题,使用了去除全局卷积层和全连接层的全卷积神经网络来进行语义分割,在卷积核的选取上,为了实现更好的分类任务,不同于其他网络使用小卷积核叠加代替大卷积核的方式,使用了大卷积核来提取几乎覆盖全图的较大的感受野,这样即使图像中物体尺度变化较大,网络也能成功将其分类。考虑到较大卷积核参数量巨大,提出了将大的6)×6)卷积核分解为两个1×6)和6)×1的组合,并且中间不接relu激活函数,这样既保证了大的Kernal的效果,又减少了参数量。这样与传统的FCN网络相比,效果提升显著。(3)融合前两个网络的结构与卷积核的选取方式,将backbone网络换成轻量型深度学习神经网络,在自动驾驶数据集CamVid上实现实时语义分割。