论文部分内容阅读
随着计算机视觉与汽车智能化技术的蓬勃发展,自动驾驶时代已经到来。对周围环境的识别、感知和理解是实现自动驾驶的必备技术,语义分割技术作为环境场景理解的重要手段,已经成为这一问题的解决方案。由于自动驾驶场景中的图像分辨率高、目标尺度变化大且对运行速度要求较高等因素,其给传统的图像语义分割技术在精确性和实时性方面带来了巨大挑战。针对自动驾驶场景中高实时性和高精确性的需求,本文研究并改进了多尺度特征提取模型中的密集空洞空间金字塔池化(Dense Atrous Spatial Pyramid Pooling,DenseASPP)方法,提出了一种基于改进DenseASPP的实时语义分割方法(Improved DenseASPP,IDenseASPP)。主要工作如下:(1)为了提升处理速度,本文提出了一种轻量化的快速下采样策略。通过引入深度可分离卷积对浅层卷积网络结构进行轻量化改进,该策略实现了小尺寸特征图的快速提取。对比主流的轻量级主干网络,生成相同尺寸的特征图,该策略在速度方面提升了1倍以上。同时本文借助该策略将IDenseASPP中结构复杂的模块应用于微小的特征图,有效地平衡了速度与精度之间的矛盾,提升了整体的运行速度。(2)为了提高分割的准确性并缓解微小特征图所导致的精度下降的问题,本文通过引入混合空洞卷积算法对DenseASPP进行改进,构建了IDenseASPP模块。该模块能够以更少的参数量生成更加密集的多尺度特征金字塔,同时缓解空洞卷积组合所特有的网格问题。实验结果表明,相比于传统多尺度特征提取模块及密集连接模块,IDenseASPP模块在平均交并比(mean Intersection over Union,mIoU)指标上带来了1.6%以上的精度提升。(3)本文研究了编解码器结构中输入图像尺寸对上采样层输出像素感受野中心的影响。对比实验表明,采用角像素中心对齐(align corners)与特定输入图像尺寸相结合的优化方案,可有效地克服感受野中心偏移问题,进而带来精度的提升。综合上述策略并结合浅层特征选择性级联和多尺寸标签监督训练等技巧,本文在Cityscapes和CamVid两个数据集上对IDenseASPP方法进行了训练和评估。最终IDenseASPP在两种数据集的测试集上的分割精度分别达到了72.4%mIoU和69.2%mIoU,在英伟达GTX 1080 Ti GPU上的实时分割帧率分别达到了113FPS和156FPS,验证了该方法的可行性与有效性。此外,本文将IDenseASPP应用于可行驶区域检测问题,在Kitti-Road和Cityscapes数据集上进行了可行驶区域分割的训练和实验,并在智能驾驶实验平台进行了实际场景测试,进一步验证了该方法的实用性。