论文部分内容阅读
人类视觉系统不仅能够对图像中的颜色,纹理,光照和边缘等低层而抽象的图像特征进行感知,而且同样可以快速而准确地对其中物体的类别,尺寸,几何结构以及物体之间的空间布局关系等更为高层而具体的图像语义实现推理。相比之下,基于计算机视觉技术的场景结构推理通常借助于经典的几何理论和图像处理技术,然而当遇到光照和物体遮挡等外部环境突变,相机发生较大运动变化,图像区域纹理较弱或存在众多重复性纹理结构等情况时,该类通常无法取得理想的结果。本课题针对如何利用低层图像特征来更为准确地挖掘出图像中包含的高层语义展开研究,并将应用到不同的室内外环境中,重点研究探索高层图像语义如何改善传统基于几何约束的场景结构推理的准确性和可靠性。本文内容和贡献如下:本文提出了一种能够适用于图像中同时包含多个前景物体且背景变化剧烈情况的无监督共分割算法。该方法能够通过对像素和区域的外观分布分别进行递归式建模来实现前景和背景的有效区分,并充分利用了图像内部以及不同图像区域之间的关联性来增加图像前景和背景模型的一致性。本文算法克服了以往方法存在的诸如需要图像间具有明显背景差异的限制。通过实验证明,和现有的经典方法相比当物体的姿态和相机视角发生变化或者物体发生形变时该方法依然具有更为鲁棒的性能。针对传统的前馈式视觉系统设计思路,本文提出了 一种具有良好可扩展性的交互式算法框架以实现场景的几何和语义同步推理。该框架在经典的场景几何和语义推理基准算法基础上加入了多个辅助的视觉分析模块,上述模块不仅通过基于本征信息的上下文交互对推理得到的场景几何和语义信息进行递归式优化,而且不同的视觉分析模块也在交互过程中实现各自性能的提升。实验结果表明,这种基于本征信息交互的反馈式算法设计能够实现基准算法性能的渐进式改善。本文提出了 一种新的思路,即同时利用场景的空间布局特性和物体之间的空间属性约束来实现室内杂乱场景的三维结构恢复。我们通过参数化地对室内场景和内部物体的空间体积进行描述,并且利用多种高层图像语义获取物体的先验信息,而且在此基础上加入了空间排他性和空间位置等几何约束,使得其有助于对场景空间布局的估计进行优化并且提供了更为丰富的物体描述。此外,上述几何信息同样可以为物体识别和最终的整体场景理解提供非常有用的关键信息。在本文中,我们仅通过少量的图像来实现室外大场景的三维模型重建。本文展示了在宽基线条件下如何将包含丰富信息的单目视觉特征与基于三角化的几何特征相结合以构建出精确的三维场景模型。本文方法采用马尔可夫随机场模型对每幅图像中各个超像素的三维位置和朝向进行同步推理,并结合多种高层图像语义信息对三维重建的过程提供有益指导。与此同时,还采用了一种递归的方式来实现场景深度和高层图像语义的联合优化。实验证明,本文方法在宽基线条件下能够取得比传统方法更为稳定和精确的三维重建效果。