论文部分内容阅读
室内场景布局估计问题是指根据室内图像估计其场景的整体空间结构,该问题在诸如室内三维重建、室内导航和增强现实等任务中有很大价值,具有重要的研究意义。近年来,室内场景布局估计问题吸引了大量学者进行相关研究,在算法和准确性上均取得了长足的进步,但在实际应用中依然存在诸多未解决的问题:现有的工作对于布局特征图的预测结果普遍不够准确,且对边缘信息和语义信息的利用较为单一;现有布局估计方法的速度普遍较慢,难以转化为实际应用;现有工作只能得到布局的二维表示,其提供的空间结构信息有限。以上问题对于布局估计任务的准确性、运行速度以及实用价值均产生不利影响。本文分别针对这些问题进行了研究,并提出了解决方案,主要内容和创新点归纳如下:1.针对布局特征图预测结果不准确,且边缘信息和语义信息未被充分利用的问题,本文提出了联合学习边缘信息和语义信息的策略,并有针对性地设计了一种编码-解码结构的深度网络以生成准确且清晰的特征图预测。创新点和贡献可归纳为:(1)设计了一种编码-解码结构的深度网络,其中的编码器具有汇总全局信息的能力,解码器则可以由粗到精地生成准确且清晰的特征图,实现了高质量特征图的生成。(2)提出了边缘信息和语义信息的联合学习方法,网络采用两个独立的解码器分别预测边缘图和语义标签图,使两者互相受益,并可提供互补信息,生成准确且相对独立的边缘和语义预测结果,显著提高了算法的容错率。(3)基于边缘图预测结果和几何约束,提出了改进的自适应采样法用于布局的生成。此外,利用布局内在的结构相似性,提出了在预定义的布局池中直接搜索候选布局的方法。以上两种方法实现了高效而准确的布局生成。(4)为了进一步降低布局估计的错误率,提出了像素级的精细化算法,通过迭代不断在各个关键点的邻近像素中搜索更优的关键点替代当前关键点,得到优化后的布局。该精细化算法显著提升了布局估计结果的准确性。2.针对布局估计速度慢,难以实时应用的问题,提出了一种端对端的学习框架,可直接预测出输入图像对应的布局类型和各个关键点的坐标。创新点和贡献可归纳为:(1)提出了快速有效的端对端学习框架,采用边缘图作为桥梁连接了两个子任务,将问题转化为由图像预测边缘图以及由边缘图生成布局的分类和关键点坐标预测两个部分,将复杂问题进行了分解。(2)首先通过随机采样人为生成充足且类型均衡的布局样本,随后采用生成对抗网络将人为生成的布局样本进行风格转换,生成与边缘预测网络的输出有相似风格的边缘图,最后利用转化后的充足样本训练布局类型和关键点坐标预测网络,解决了端对端学习任务中训练数据不足和样本布局类型不均衡两大问题。实现了对布局估计结果的直接输出,显著提升了布局估计的速度。3.针对当前二维表示的布局估计任务中存在的诸多限制,提出了室内场景三维布局估计任务,标注产生了首个三维布局估计数据集,并提出了有针对性的算法。创新点和贡献可归纳为:(1)首次提出了三维布局估计任务,用地面、墙面等室内平面的深度来表示布局,通过相机参数可进一步将其转化为三维点云,生成布局的三维结构,反映了布局的三维信息。(2)基于相机投影原理,推导出了现实中的平面在深度图中的一般方程,即每个像素深度值的倒数与其坐标为线性关系,为后续算法提供了理论基础。(3)利用该方程,本文基于已有的室内环境下的RGB-D数据集进行标注,生成了首个三维布局估计数据集。(4)提出了三维布局的学习策略,利用上述方程将布局深度图分解为由多个局部平面构成的参数图,并进一步将尺度从参数图中分离,最终将非线性的深度预测问题转化为了平面预测问题,实现了对布局深度图的高效学习,提升了预测准确性。