论文部分内容阅读
近年来,人工智能、5G通讯技术等领域发展迅速,为机器人的智能化带来了新的发展助力。机器人如何能够像人一样,通过“眼睛”、“大脑”和“四肢”来感知三维世界、理解三维世界并依据所获得的逻辑信息自主行为决策,成为学术界和工业界的研究热点。随着深度学习方法在图像处理、计算机视觉和模式识别等相关领域获得的巨大成功,研究基于深度学习的机器人三维视觉感知和识别方法具有重要的意义。本论文将主要聚焦像素级预测网络和点云深度网络这两大核心方法,围绕面向机器人人机交互和复杂场景理解的应用开展相关工作。本论文的主要研究内容可以概括如下:1.移动机器人平台通过搭载在上面的多种视觉传感器来感知外界环境,包括视频/双目相机、RGB-D深度相机、光场相机和激光雷达。通过对各种深度相机成像特点的分析比较,我们选用具有光场这一新型成像模式的相机。光场相机具有在获取光线强弱的同时记录光线传播方向的能力,能够在室内和室外同时具有良好的性能,为移动机器人的视觉系统提供新的思路。然而不同于传统成像系统,光场相机的CMOS主成像传感器配备了微晶体阵列,传统的相机标定方法无法适用,我们则综合选用了基于线特征的方法对其进行了标定。我们主要采用点云这一特殊的三维环境表示形式,使用激光雷达对室内环境下的三维场景进行点云格式扫描或者重建,并通过后续所提出的方法对三维场景进行理解。2.人机交互过程中很重要的一部分是对人脸进行三维重建和理解。最近,从单个RGB图像重建3D面部几何形状引起了广泛的研究兴趣。然而,它仍然是一个不确定的问题,并且大多数方法依赖于先验的模型,因此破坏了恢复的3D面部的准确性和鲁棒性。在本文中,我们利用从光场相机获得的极线平面图像(EPI)来学习CNN模型,从相应的水平和垂直EPI中恢复水平和垂直3D面部曲线。我们的3D人脸重建网络(FaceLFnet)包含密集连接的网络架构,可以从低分辨率EPI中学习准确的3D面部曲线。为了从头开始训练提出的FaceLFnets,我们用3D面部扫描合成照片般逼真的光场图像。三维曲线面部估计方法允许网络仅从80个身份的14K图像中学习,其仍然包括超过1100万个EPI或者曲线。估计的面部曲线合并为单个点云,表面拟合该点云以获得最终的三维面部模型。我们的方法是无先验模型的,只需要少量训练样本来学习所提出的FaceLFnets,并且可以在不同的姿势,表情和光照条件下从单个光场图像高精度地重建3D面部。BU-3DFE和BU-4DFE数据集的比较表明,与最近的现有技术相比,我们的方法将重建误差减少了20%以上。3.场景的深度预测可以帮助机器人进行避障和路径规划。卷积神经网络在许多图像分析任务中表现都非常出色。然而,深度CNN架构的监督训练需要大量标记数据,这些数据不适用于光场图像。在本文中,我们利用合成光场图像并提出双流CNN网络,该网络学习从其极线平面图像(EPI)估计多个相关邻域像素的视差。由于EPI除了在它们的交叉点之外是不相关的,因此提出了双流网络以单独地为EPI学习卷积权重,将两个分流的输出组合用于视差估计。然后使用中心RGB光场图像作为变分技术中的先验来细化CNN估计的视差图。我们还提出了一个新的真实世界数据集,其中包括使用Lytro Illum相机在室外场景中拍摄的19个物体的光场图像以及使用3dMD扫描仪捕获相应的3D点云,即为真实值在训练中作为标签进行监督。该数据集将公开,以允许将来对目前不可能的算法进行更精确的3D点云级别比较。在合成和真实数据集上的实验表明,相较于现有的用于从光场图像进行深度估计的方法,我们的方法达到最优的效果。4.移动机器人对三维点云场景进行逐点的语义分割,是实现其对复杂场景进行深度理解的关键。卷积神经网络在由规则排列的网格(如图像)表示的数据上表现非常好。然而,由于稀疏三维点云具有不规则和无序的性质,直接利用经典卷积核或参数共享机制效率很低。针对三维点云语义分割,提出了一种学习丰富的局部形状特征及其上下文关联的点注意力网络。由于相邻点的几何分布对点的排序是不变的,我们提出了一种局部注意边缘卷积(LAE-Conv)来构造基于多方向搜索的邻域点局部图。我们将注意力系数分配给每一条边,然后将中心点的特征聚合为其邻域点特征的加权和。然后,将学习到的LAE-Conv层特征赋给一个逐点空间注意模块,以生成所有点的相互依赖矩阵,而不管它们的距离如何,该矩阵捕获了远程空间上下文特征,有助于获得更精确的语义信息。该点注意网络由编码器和解码器组成,结合LAE-CONV层和点位空间注意模块,使其成为预测三维点云语义标签的端到端可训练网络。在具有挑战性的三维点云基准的实验表明,我们的算法精度较现有最先进的方法提高1.2%左右。5.移动机器人在执行抓取等任务过程中首先需要检测出三维点云场景中的物体,三维物体的大小、位置、姿态等对移动机器人的动作决策提供先验信息。卷积神经网络CNN已成为2D图像上大多数物体检测任务的强大策略。然而,直接从点云检测3D物体而不将它们转换为常规网格时,它们的能量尚未完全释放。此外,所有最先进的3D对象检测方法都依赖于单独识别3D对象而不在学习和推断期间利用它们的关系。在本文中,我们首先介绍一种策略,将方向向量和伪中心的预测结合在一起,从而为3D边界框候选回归提供双赢解决方案。然后,我们提出了一种点注意力池化方法,为每个三维索引提取统一的外观特征,它从学习的方向特征,语义特征和物体表面点的空间坐标中获益。同时,外观特征与位置特征一起同时用于为所有索引建立3D对象-对象关系图,从而允许对它们的交互进行建模。具体来说,我们探讨了关系图在无监督和监督条件下对索引外观特征增强的影响。所提出的关系图网络由3D对象索引生成模块和3D关系模块组成,使其成为用于检测点云中的3D对象的端到端可训练网络。在具有挑战性的3D点云基准测试集(SunRGBD和ScanNet数据集)上实验表明,我们的算法精度较现有最先进方法提高1.5%左右。