论文部分内容阅读
近年来,深度学习技术促使人工智能领域蓬勃发展,特别是在计算机视觉领域,将计算机视觉中的几何和图像相结合,用来解决机器人环境感知问题,被证明是一种非常具有前景的解决方案。智能机器人需要理解周围场景中的几何和语义两方面的特性,才能与周围环境进行有意义的交互,同时也是使机器人在环境中进行有目的行动的前提条件。环境感知技术是机器人实现智能化的关键部分,机器人利用传感器来感知空间环境,同时能够理解环境中具体信息。传统的感知方法很难实现,然而深度学习技术的出现使得机器人理解环境信息成为可能。机器人通过同步定位与地图构建(Simultaneous Localization and Mapping,SLAM)技术能够很好地还原三维环境的几何空间,然而并不能理解环境中具体物体信息,并且无法判断物体之间的相互逻辑关系。因此本文提出的一种方法,将基于深度学习的实时目标检测技术应用到传统的SLAM算法中,生成带有语义信息的三维环境地图,并且该方法能够有效的生成实时的三维语义地图,从而实现对环境的感知,本文的主要研究内容包括:首先,系统的阐述了基于深度视觉的SLAM系统,包括深度相机模型、坐标系、深度相机参数、视觉SLAM基本组成框架,最后从数学的角度对SLAM过程进行了描述。其次,本文从数学的角度推导证明了神经网络的前向传播和反向传播算法,并阐述了卷积神经网络的基本组成。为了确保对环境感知信息的实时性,本文需要对SLAM系统中关键帧的RGB图进行实时标注,因此本文介绍了基于R-CNN系列的目标检测算法和基于回归预测的快速目标识别算法,对比后最终采用YOLOv3算法,并在办公室环境中进行了实验验证,验证该算法的准确性和实时性。最后,本文使用ORB-SLAM2算法对空间信息进行实时的三维重建,并对该算法进行了改进,融合了目标检测算法YOLOv3,使用YOLOv3对ORB-SLAM2中的关键帧进行语义标注,在ORB-SLAM2既有的三个线程上,另外开辟了一条线程,使用点云库(Point Cloud Library,PCL)处理了带标注的关键帧和其对应的点云,生成带有语义信息的三维语义地图,来实现对环境的感知,并且在TUM数据集上进行了验证,最终在机器人上对该算法的准确率和实时性进行了验证。