论文部分内容阅读
图像语义分割被广泛应用于自动驾驶、AR/VR交互、机器人等前沿领域。然而由于图像中拍摄场景多样、拍摄角度广泛、标记类别繁多、环境光线变化大、数据不均衡以及物体之间存在复杂而广泛的上下文关系,图像语义分割是一项具有挑战性地任务。
传统的RGB图像语义分割算法由于缺乏三维空间位置信息,在算法层面具有一定的局限性。本文引入深度图像用来帮助RGB图像进行语义分割,提出了基于编码器解码器架构的注意力融合网络(AFNet),实现了快速且高精度的室内RGBD图像语义分割。此外,为了提高模型的性能,本文提出了基于注意力机制的特征融合模块以及特征解码模块,并在其上构建了AFNet网络架构。
本文所提出的方法在主流的数据集上进行了算法评估。实验结果表明,所提出的方法已经获得了与现有先进方法相比更好或相当的RGBD图像语义分割结果。
传统的RGB图像语义分割算法由于缺乏三维空间位置信息,在算法层面具有一定的局限性。本文引入深度图像用来帮助RGB图像进行语义分割,提出了基于编码器解码器架构的注意力融合网络(AFNet),实现了快速且高精度的室内RGBD图像语义分割。此外,为了提高模型的性能,本文提出了基于注意力机制的特征融合模块以及特征解码模块,并在其上构建了AFNet网络架构。
本文所提出的方法在主流的数据集上进行了算法评估。实验结果表明,所提出的方法已经获得了与现有先进方法相比更好或相当的RGBD图像语义分割结果。