论文部分内容阅读
在计算机视觉中,三维语义分割是三维场景理解和分析的重要基础,在无人驾驶、自主机器人、增强现实等三维感知领域中被广泛应用,提高语义分割的精度对于语义理解和分析具有重大意义。目前,基于深度学习的三维语义分割算法的性能大大高于传统的分割算法,但在准确性上还不能完全满足实际需求,精度仍然还存在很大的提升空间。本文以提高三维语义分割精度为目标,研究基于深度学习的三维语义分割算法,具体研究内容如下:
PointNet是点云三维语义分割中的先进算法之一,本文在PointNet的基础上进行改进,提高语义分割的精度。针对PointNet没有利用点云的局部结构,导致其识别结构复杂物体能力低的问题,本文提出了多尺度局部特征提取模块,该模块通过KNN算法搜索点云局部邻域,学习邻域中每个特征对于局部特征的贡献度,加权求和得到局部特征,将多个尺度的局部特征连接起来得到多尺度的局部特征;针对PointNet无差别对待所有的特征通道,限制了网络表述能力的问题,本文通过通道注意力提升模块,自适应地学习不同通道特征的重要程度,提升重要通道特征的权重,抑制不重要的通道特征;最后,连接多个层次的全局特征和点特征进行语义分割,并利用加权损失函数辅助训练。与PointNet模型相比,本文算法的总体分割精度oAcc提高了7%,平均交并比mIoU提高了9.8%,并且可以更好地识别出空间结构复杂的物体以及在局部的分割细节更加清晰。
为了进一步将应用越来越广的RGBD图像用于三维语义分割,本文研究了基于RGBD多帧融合的三维语义分割算法,提高了图像语义分割的精度,并且通过多帧融合得到良好的三维语义分割结果。首先,本文提出一种基于双数据流的RGBD语义分割算法,针对图像语义分割中没有充分利用深度信息的问题,利用两个ResNet网络分别提取RGB特征和深度特征,设计了多模态特征融合模块用于自适应地选择RGB特征和深度特征的重要部分进行充分融合,减弱了RGB图像受光照、遮挡等因素的影响;针对深层网络因为下采样导致分割结果粗糙的问题,通过低分辨与高分辨率特征的逐级融合,从而提高分割结果的细节和精度。然后,通过贝叶斯法则将多帧RGBD语义分割的结果进行融合,从而实现三维语义分割。与ResNet网络相比,本文的双数据流语义分割算法的总体分割精度oAcc提高了4.81%,平均交并比mIoU提高了7.69%,并且不容易受纹理信息的错误影响,分割细节要更加清楚,通过有效融合多帧图像语义分割结果,得到效果良好的三维语义分割效果。
实验证明,本文基于点云的三维语义分割算法在分割精度上超过了PointNet模型。在本文RGBD多帧融合的三维语义分割算法中,RGBD二维语义分割精度高,并且通过有效融合,得到了三维语义分割结果,从而验证了算法的可行性和有效性。为了采集三维点云和RGBD图像,本文设计和实现了三维点云场景采集系统和RGBD图像采集系统,从硬件和软件两个方面进行方案的阐述。最后总结全文工作,确定下一步研究方向。
PointNet是点云三维语义分割中的先进算法之一,本文在PointNet的基础上进行改进,提高语义分割的精度。针对PointNet没有利用点云的局部结构,导致其识别结构复杂物体能力低的问题,本文提出了多尺度局部特征提取模块,该模块通过KNN算法搜索点云局部邻域,学习邻域中每个特征对于局部特征的贡献度,加权求和得到局部特征,将多个尺度的局部特征连接起来得到多尺度的局部特征;针对PointNet无差别对待所有的特征通道,限制了网络表述能力的问题,本文通过通道注意力提升模块,自适应地学习不同通道特征的重要程度,提升重要通道特征的权重,抑制不重要的通道特征;最后,连接多个层次的全局特征和点特征进行语义分割,并利用加权损失函数辅助训练。与PointNet模型相比,本文算法的总体分割精度oAcc提高了7%,平均交并比mIoU提高了9.8%,并且可以更好地识别出空间结构复杂的物体以及在局部的分割细节更加清晰。
为了进一步将应用越来越广的RGBD图像用于三维语义分割,本文研究了基于RGBD多帧融合的三维语义分割算法,提高了图像语义分割的精度,并且通过多帧融合得到良好的三维语义分割结果。首先,本文提出一种基于双数据流的RGBD语义分割算法,针对图像语义分割中没有充分利用深度信息的问题,利用两个ResNet网络分别提取RGB特征和深度特征,设计了多模态特征融合模块用于自适应地选择RGB特征和深度特征的重要部分进行充分融合,减弱了RGB图像受光照、遮挡等因素的影响;针对深层网络因为下采样导致分割结果粗糙的问题,通过低分辨与高分辨率特征的逐级融合,从而提高分割结果的细节和精度。然后,通过贝叶斯法则将多帧RGBD语义分割的结果进行融合,从而实现三维语义分割。与ResNet网络相比,本文的双数据流语义分割算法的总体分割精度oAcc提高了4.81%,平均交并比mIoU提高了7.69%,并且不容易受纹理信息的错误影响,分割细节要更加清楚,通过有效融合多帧图像语义分割结果,得到效果良好的三维语义分割效果。
实验证明,本文基于点云的三维语义分割算法在分割精度上超过了PointNet模型。在本文RGBD多帧融合的三维语义分割算法中,RGBD二维语义分割精度高,并且通过有效融合,得到了三维语义分割结果,从而验证了算法的可行性和有效性。为了采集三维点云和RGBD图像,本文设计和实现了三维点云场景采集系统和RGBD图像采集系统,从硬件和软件两个方面进行方案的阐述。最后总结全文工作,确定下一步研究方向。