论文部分内容阅读
在视觉SLAM领域,三维重建一直是一个颇有前景的研究方向。其目的是旨在建立空间场景以及基础设施的三维模型。鉴于三维模型是VR/AR应用的重要基础之一,因而如何尽可能提高三维建模的精度和拓展建模的应用场景是研究者们迫切面临的问题之一。此外,当今3D视觉感知技术正在经历一场巨大的变革,并已经催生了许多创新的应用,诸如自动驾驶技术、自动场景建图和使用消费级传感器的高质量物体扫描等。其中物体扫描的核心技术也就是三维重建,这些消费级传感器一般包括Microsoft Kinect,Leap Motion,ZED Stereo Camera,Asus Xtion,Intel Real Sense等。无可否认,机器视觉技术包括SLAM的终极目标是让机器人看到并理解真实世界,这可以让机器人做出自主决策和行动规划。而本文的主要工作是实现了这一目标的一个子集。使用ZED立体相机捕获双目图像作为重建系统的输入,然后利用不同的立体匹配算法来生成视差图,并比较它们的优劣,从而创建单视图下的3D点云。在这里,为了增强全局一致性并减少重构点云模型的整体误差,通过训练一个数据驱动的局部几何特征来匹配具有噪声和低分辨率特征的点云数据。在实时重建算法的后端优化部分,整个系统使用了较为成熟的Elastic Fusion优化模块。最终在单视图点云的基础上获得了多视图全局一致的室内重建地图。由于机器视觉的终极目标是帮助机器人学习观察并理解真实世界,仅仅获得三维点云表达是远远不够的。因此,尝试将点云以语义形式进行表达是实现场景理解的关键。因为语义信息可以让机器人具备感知周遭环境,认知物体的能力。为了达到这个目的,本文实现了点云的语义分割。算法采用了斯坦福大学的室内大型语义分割数据库S3DIS Dataset对定制化的神经网络模型进行训练。该深度学习网络架构充分考虑了3D点云的特性:(1)无序性,输入数据之间顺序变化对结果没有影响;(2)相邻点之间具有结构关联信息;(3)网络应具备对各种几何变换(平移、拉伸、翻转等)的不变性。通过深度网络构造一个通用对称函数,网络学习模型最终从双目立体相机重建的原始点云模型中实现了室内三维场景的语义分割,以此建立了一个较为完整的室内环境语义地图。