论文部分内容阅读
即时定位与地图构建技术(Simultaneous Localization And Mapping,SLAM)是机器人视觉的核心技术,常用于机器人运动过程中的环境感知和导航,是实现全自主移动机器人的关键。视觉相机作为传感器具有信息量大、灵活性高、成本低等优点,使得基于视觉的SLAM研究具有十分重要的意义。但在诸如机器人导航、避障、自动驾驶等实际SLAM应用场景中,视觉相机获取的二维图像由于缺少深度信息,无法提供目标准确的三维位置、大小、方向等,在应用上受到极大限制。因此,基于二维图像的深度信息估计对于视觉SLAM的应用具有重要意义。本文主要研究如何直接从二维图像中获取深度信息的问题。相对传统算法,卷积神经网络(Convolutional Neural Networks,CNN)通过学习一个非线性预测函数,将图像直接映射到场景的深度图,获得了最好的深度估计性能。最近的工作大都通过对神经网络进行有监督训练来获取深度,实验结果也证明了其在视图深度估计中的有效性,但这类方法被限制在大量图像及其对应像素深度真值信息的获取上。因此,本文提出的算法为无监督学习,在无需深度真值信息的情况下,将计算机视觉领域的一些传统的图像处理方法融入到深度学习框架中,实现了超越目前经典算法的性能。本文的主要创新点和贡献总结如下:1.针对单目视频序列,提出了一种视图合成与感知损失相结合的非监督学习框架,在为深度估计任务训练的转换网络中,将低层次的像素信息误差损失与预先训练的损失网络提取到的高级特征的感知损失进行联合作为总的损失函数,对神经网络进行反馈调节,实验结果表明,该网络框架在单一图像深度预测评估中,性能取得了显著的提升。2.对于深度估计中单目视频序列固有的尺度模糊问题,提出了一种使用双目立体视频序列进行联合学习的解决方案。通过利用立体图像对之间已知的姿态解决深度估计尺度模糊问题,对单视图深度估计器和位姿估计器同时进行训练,将场景深度和摄像机运动限制在共同的真实世界比例中,同时通过位姿网络进行帧到帧之间没有尺度模糊的位姿估计,为直接视觉里程计(Direct Visual Odometry,DVO)提供良好的初始位姿并进行位姿优化,最后使用空间和时间一致性约束,对深度及位姿进行联合优化。3.在单双目深度估计工作的基础上引入生成对抗网络(Generative Adversarial Network,GAN)中的对抗学习方式(Adversarial Learning,AL)对深度估计与视觉里程计进行进一步优化,将深度与位姿估计网络联合起来作为生成器,一个卷积网络与Flatten操作结合的联立网络作为鉴别器,鉴别器的损失函数采用cGAN(Conditional GAN)和WGAN-GP(WGAN Gradient Penalty)的结合改进版,将传统鉴别器的二分类任务转换为回归任务来处理,更适合深度估计任务的特性,同时本文通过在视点合成上的应用,验证了深度图的合理性,取得了良好的主观效果。