论文部分内容阅读
图像语义标注作为图像场景理解的核心之一,已成为图像处理与计算机视觉领域的研究热点。室内场景存在大量语义类别、互相遮挡、低层视觉特征辨识力较弱以及不均匀光照等问题,使得室内场景语义标注已成为图像理解中棘手且极富挑战的研究方向。随着深度传感器的普及和计算机视觉研究人员的不懈努力,当前能便捷且可靠地获得包含多模态的RGB纹理和Depth深度的RGB-D数据。利用富含几何深度信息的RGB-D感知数据,融入并解决视觉计算中室内场景语义标注问题,具有巨大潜力和诱人前景。本文设计了一种基于RGB-D图像由粗至精的室内场景语义分割方法,包括粗粒度区域级语义标签推断与细粒度像素级语义标签求精两大部分。首先,在粗粒度区域级语义标签推断过程中,利用基于图像分层显著度导引的简单线性迭代聚类(Simple Linear Iterative Clustering,SLIC)过分割算法和鲁棒的多模态区域特征构建超像素语义标签池,由已训练的随机决策森林分类器对超像素语义类别标签进行判决;然后,在细粒度像素级语义标签求精过程中,利用几何深度深度信息和内部反馈机制改进像素级稠密条件随机场(Conditional Random Fields,CRFs)概率图模型,对粗粒度语义标注结果求精;最后,引入全局递归式反馈,渐进式迭代更新室内场景的语义类别标签。针对目前快速的非监督过分割算法在杂乱的室内场景中难以得到具有较高边缘一致性的超像素区域的问题,利用图像分层显著度所具备的抗小范围高对比度模式的特点,本文改进了一种基于图像分层显著度导引的简单线性迭代聚类SLIC过分割,用于实现粗粒度区域级语义标签的推断方案。首先,提取RGB彩色通道中三个不同尺度的图像层次结构,针对每个图像层次结构分别计算对应的显著度信息,将这些分层视觉显著度融合成一个统一的显著度图像,以构建树状推断模型;然后,利用场景即得的分层显著度与相应的深度信息,对传统SLIC过分割仅包含彩色三通道的聚类空间进行多模态扩充,聚类得到较紧凑的超像素区域;接着,计算超像素区域的质心、色彩HSV分量均值与相应直方图、彩色RGB图像梯度方向直方图(Histograms of Oriented Gradients,HOG)、深度图像HOG以及表面法线向量图像HOG等特征并做归一化成单位向量;然后,将即得的各个归一化特征向量,串联拼接成超像素区域的多模态特征;最后,对即得区域的多模态特征,采用随机决策森林分类判别相应区域的语义标签类。NYU Depth v2和SUN3D RGB-D数据集上的实验表明,改进型过分割方案有助于改善室内场景中局部小范围高对比度模式对划分场景的超像素区域的不利影响,能提升所划分超像素区域边界性能,有利于粗粒度区域级语义标签推断,得到精度较高、整体视觉效果较好的语义标注结果,为后续求精细粒度的语义标签提供更为可靠的上下文信息。鉴于传统室内场景语义标注方案尚未充分挖掘几何深度信息对上下文推理过程的贡献,本文设计了一种基于几何深度信息和内部递归式反馈机制改进像素级稠密CRFs概率图模型的方案,以实现细粒度级别语义标签的推断求精。首先,利用场景深度信息和摄像机内部参数计算室内场景的三维点云和相应点云表面的法线向量;然后,利用即得场景的深度图像及相应的表面法线向量,修正稠密CRFs概率图模型中由高斯核线性组合而成的成对项势能,推断获得细粒度级别的初始语义类别标注;最后,根据区域级语义标签推断部分产生的过分割信息和即得的细粒度语义标注以及合适的终止条件,迭代更新粗粒度区域级的语义标注结果。若满足终止条件,则终止该内部反馈,将对应的细粒度语义标注图像作为最终细粒度级别标注图像;否则,返回前一步骤。NYU Depth v2和SUN3D RGB-D数据集上的实验表明,相较于传统稠密CRFs概率图模型,改进型稠密CRFs概率图模型一定程度上能抑制曝光过度或不均匀的室内光源对场景语义标注的不利影响,提升语义标签预测的准确性;而引入内部递归式反馈机制,能改善细粒度像素级语义标签求精的准确性和稳定性,以产生视觉表现力更强、标注准确率更高的细粒度语义标注图像。针对传统场景语义标注方案中存在难以合适选择标注基元尺度的问题,本文设计了由粗到精全局递归式反馈的RGB-D室内场景语义标注框架。首先,将最终的细粒度语义标注图像作为一种额外感知通道对所摄场景图像进行SLIC过分割方法中的聚类空间进行扩展;然后,根据更新后的细粒度级别标注图像与未更新前的细粒度级别标注图像变化小于某一阈值,作为全局递归式反馈机制中判断终止的条件。若满足该终止条件,则终止该全局反馈,并将该更新后的最终细粒度级别标注图像作为该查询图像的最终标注图像;否则,返回前一步骤。与传统单一的区域级或像素级语义标注框架不同,该框架合理地引入全局递归式反馈的机制,能在粗粒度区域级语义标注与细粒度像素级语义标注之间建立有机联系,并利用上述两步骤中相应的标注结果,进行交替迭代更新优化,得到精度较高且视觉一致的分类标注。NYU Depth v2和SUN3D RGB-D数据集上的实验表明,该框架能较好地融合场景图像中不同区域层次的多模态信息,使整体语义标注性能优于部分传统的单一层次的语义标注方案。