论文部分内容阅读
图像语义分割是计算机视觉的核心任务之一,其目的是对输入图像的每个像素进行有效地分类。近年来,深度学习是影响计算机领域最为深远的技术。在深度学习的帮助下,图像语义分割任务在自动驾驶、生物医学、现实增强等领域获得了诸多成果。相比于图像分类和目标检测,语义分割能提供更丰富的图像语义信息。然而目前基于深度学习的语义分割存在诸多问题。首先语义分割数据集难以制作,存在训练困难、制作成本高的问题;其次大部分算法的计算量和网络参数巨大,导致其无法应用于计算资源有限的移动设备中,限制了语义分割的发展;再者,诸多算法没有充分地利用计算平台的硬件资源来加速程序运行速度。因此本文主要围绕这三方面进行研究和优化。主要内容和创新如下:1.训练高效。通过对已有弱监督算法的详细分析,本文提出了 RGrad-CAM算法。该算法利用图像分类级标签对网络进行训练并输出热力图,实现了高效的网络训练,大大降低了训练成本。同时对算法进行细致的可视化分析,从热力图、特征图和梯度图三个方面全面探讨算法提升的本质。RGrad-CAM通过增强部分特征图的权重,提高了最终热力图的精准度。在PASCAL VOC数据集上的分割测试结果显示,RGrad-CAM的mIoU指标比CAM算法提高了 3%,其它指标也全面优于CAM。2.模型高效。本文基于编解码结构提出了高效语义分割网络EEDNet。EEDNet采用MobileNet作为网络的编码器;利用注意力机制实现特征的高效提取和降维,减小了模型的整体计算量;充分利用编码器的分类结果,其丰富的上下文信息协助分割,从而提高分割准确率;高层特征图协助低层特征图恢复其空间语义信息,同时多层特征图在网络中得到了有效地融合。多个标准数据集的实验测试结果表明,EEDNet在分割准确率和效率之间实现了非常好的平衡。3.推理高效。在算法时间和空间复杂度不变的情况下,本文充分利用计算机体系结构去优化程序运行效率。采用低精度在内存布局和计算效率上的优势,加速程序运行速度。利用现有的GPU引擎加速网络推理。实验结果表明,在不影响结果准确率的情况下,低精度能显著地加快网络推理速度,是个非常有价值的工程优化方案。