基于深度学习的机器人视觉三维感知与识别方法研究

来源 :湖南大学 | 被引量 : 1次 | 上传用户:sj1020300
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,人工智能、5G通讯技术等领域发展迅速,为机器人的智能化带来了新的发展助力。机器人如何能够像人一样,通过“眼睛”、“大脑”和“四肢”来感知三维世界、理解三维世界并依据所获得的逻辑信息自主行为决策,成为学术界和工业界的研究热点。随着深度学习方法在图像处理、计算机视觉和模式识别等相关领域获得的巨大成功,研究基于深度学习的机器人三维视觉感知和识别方法具有重要的意义。本论文将主要聚焦像素级预测网络和点云深度网络这两大核心方法,围绕面向机器人人机交互和复杂场景理解的应用开展相关工作。本论文的主要研究内容可以概括如下:1.移动机器人平台通过搭载在上面的多种视觉传感器来感知外界环境,包括视频/双目相机、RGB-D深度相机、光场相机和激光雷达。通过对各种深度相机成像特点的分析比较,我们选用具有光场这一新型成像模式的相机。光场相机具有在获取光线强弱的同时记录光线传播方向的能力,能够在室内和室外同时具有良好的性能,为移动机器人的视觉系统提供新的思路。然而不同于传统成像系统,光场相机的CMOS主成像传感器配备了微晶体阵列,传统的相机标定方法无法适用,我们则综合选用了基于线特征的方法对其进行了标定。我们主要采用点云这一特殊的三维环境表示形式,使用激光雷达对室内环境下的三维场景进行点云格式扫描或者重建,并通过后续所提出的方法对三维场景进行理解。2.人机交互过程中很重要的一部分是对人脸进行三维重建和理解。最近,从单个RGB图像重建3D面部几何形状引起了广泛的研究兴趣。然而,它仍然是一个不确定的问题,并且大多数方法依赖于先验的模型,因此破坏了恢复的3D面部的准确性和鲁棒性。在本文中,我们利用从光场相机获得的极线平面图像(EPI)来学习CNN模型,从相应的水平和垂直EPI中恢复水平和垂直3D面部曲线。我们的3D人脸重建网络(FaceLFnet)包含密集连接的网络架构,可以从低分辨率EPI中学习准确的3D面部曲线。为了从头开始训练提出的FaceLFnets,我们用3D面部扫描合成照片般逼真的光场图像。三维曲线面部估计方法允许网络仅从80个身份的14K图像中学习,其仍然包括超过1100万个EPI或者曲线。估计的面部曲线合并为单个点云,表面拟合该点云以获得最终的三维面部模型。我们的方法是无先验模型的,只需要少量训练样本来学习所提出的FaceLFnets,并且可以在不同的姿势,表情和光照条件下从单个光场图像高精度地重建3D面部。BU-3DFE和BU-4DFE数据集的比较表明,与最近的现有技术相比,我们的方法将重建误差减少了20%以上。3.场景的深度预测可以帮助机器人进行避障和路径规划。卷积神经网络在许多图像分析任务中表现都非常出色。然而,深度CNN架构的监督训练需要大量标记数据,这些数据不适用于光场图像。在本文中,我们利用合成光场图像并提出双流CNN网络,该网络学习从其极线平面图像(EPI)估计多个相关邻域像素的视差。由于EPI除了在它们的交叉点之外是不相关的,因此提出了双流网络以单独地为EPI学习卷积权重,将两个分流的输出组合用于视差估计。然后使用中心RGB光场图像作为变分技术中的先验来细化CNN估计的视差图。我们还提出了一个新的真实世界数据集,其中包括使用Lytro Illum相机在室外场景中拍摄的19个物体的光场图像以及使用3dMD扫描仪捕获相应的3D点云,即为真实值在训练中作为标签进行监督。该数据集将公开,以允许将来对目前不可能的算法进行更精确的3D点云级别比较。在合成和真实数据集上的实验表明,相较于现有的用于从光场图像进行深度估计的方法,我们的方法达到最优的效果。4.移动机器人对三维点云场景进行逐点的语义分割,是实现其对复杂场景进行深度理解的关键。卷积神经网络在由规则排列的网格(如图像)表示的数据上表现非常好。然而,由于稀疏三维点云具有不规则和无序的性质,直接利用经典卷积核或参数共享机制效率很低。针对三维点云语义分割,提出了一种学习丰富的局部形状特征及其上下文关联的点注意力网络。由于相邻点的几何分布对点的排序是不变的,我们提出了一种局部注意边缘卷积(LAE-Conv)来构造基于多方向搜索的邻域点局部图。我们将注意力系数分配给每一条边,然后将中心点的特征聚合为其邻域点特征的加权和。然后,将学习到的LAE-Conv层特征赋给一个逐点空间注意模块,以生成所有点的相互依赖矩阵,而不管它们的距离如何,该矩阵捕获了远程空间上下文特征,有助于获得更精确的语义信息。该点注意网络由编码器和解码器组成,结合LAE-CONV层和点位空间注意模块,使其成为预测三维点云语义标签的端到端可训练网络。在具有挑战性的三维点云基准的实验表明,我们的算法精度较现有最先进的方法提高1.2%左右。5.移动机器人在执行抓取等任务过程中首先需要检测出三维点云场景中的物体,三维物体的大小、位置、姿态等对移动机器人的动作决策提供先验信息。卷积神经网络CNN已成为2D图像上大多数物体检测任务的强大策略。然而,直接从点云检测3D物体而不将它们转换为常规网格时,它们的能量尚未完全释放。此外,所有最先进的3D对象检测方法都依赖于单独识别3D对象而不在学习和推断期间利用它们的关系。在本文中,我们首先介绍一种策略,将方向向量和伪中心的预测结合在一起,从而为3D边界框候选回归提供双赢解决方案。然后,我们提出了一种点注意力池化方法,为每个三维索引提取统一的外观特征,它从学习的方向特征,语义特征和物体表面点的空间坐标中获益。同时,外观特征与位置特征一起同时用于为所有索引建立3D对象-对象关系图,从而允许对它们的交互进行建模。具体来说,我们探讨了关系图在无监督和监督条件下对索引外观特征增强的影响。所提出的关系图网络由3D对象索引生成模块和3D关系模块组成,使其成为用于检测点云中的3D对象的端到端可训练网络。在具有挑战性的3D点云基准测试集(SunRGBD和ScanNet数据集)上实验表明,我们的算法精度较现有最先进方法提高1.5%左右。
其他文献
本课题所研究的是数字型液压变压器在液压升降电梯回路中的应用,是在降低液压电梯装机功率和能耗的研究目标下提出的一种新型节能控制系统。该系统采用液压系统中常用的皮囊
本文作者在导师指导下,发明了一种基于新型切换开关的电机控制系统,该系统依靠冗余技术提高系统的可靠性。本文叙述这种新型冗余系统的构成和工作原理:对系统中可靠度要求较高的支路,例如控制器、电机驱动器等组成的支路,加上n-1个备份支路。对这n个支路,每个支路都配备一个以STM32单片机为核心的切换开关。这n个切换开关中的单片机相互之间保持通信。平时只有一个支路工作,其余支路作为冷储备。当工作支路出现故障
朝鲜民歌作为本民族的艺术变现形式,源于朝鲜人民的社会实践,体现着本民族所独特的生命体验和情感境遇。朝鲜民歌来于生活,其不仅与社会生活息息相关,朝鲜民歌的发展还受时代
官帽椅是我国家具中极具代表性的家具种类.本文试从造型设计、形式美、文化内涵等方面,对官帽椅进行系统探讨,由表及里地挖掘其设计中对于现今设计具有影响的设计理念。
陶瓷成型工艺是获得高性能、高可靠性陶瓷及其复合材料的关键工序之一。陶瓷分散剂失效原位凝固注模成型工艺是通过分散剂的可控失效来实现陶瓷悬浮体原位固化的一种新型成型方式。针对氮化铝粉体易水解的特性及碳纳米管在氧化铝悬浮体分难以分散等问题,本论文基于分散剂的分散稳定机制,选取相应的分散剂,制备了高固相含量、低粘度的非水基氮化铝陶瓷悬浮体和碳纳米管-氧化铝混合陶瓷悬浮体;利用陶瓷分散剂失效工艺原理,实现了
针对网络订餐食品安全问题,通过对我国网络订餐行业现状的分析且建立优化模型,探析网络订餐平台在初建发展期与成熟发展期的平台规模与其食品安全监管努力的关系和影响因素。
N2O是一种重要的温室气体,它的温室效应是CO2的300倍左右。已证实污水生物脱氮是N2O产生的重要途径之一。而一些具有经济性优势的新型生物脱氮工艺却可能产生高于传统脱氮工
目的:探讨不同类型、不同性质的刺激材料对自传体记忆性质的影响,从认知加工的角度分析词汇、图片和音乐哪一种刺激材料更加有利于自传体记忆的提取。方法:(1)通过筛选,以全
基于地热能、太阳能、风能等可再生能源的分布式发电系统已经成为解决全球能源危机的热门研究课题。在分布式发电并网系统中,并网逆变器作为将电能传递给公共电网的重要电力电子设备,其输出电能必须满足并网电能质量要求。谐波会加大电力电子器件损耗、使电机和变压器效率降低、电容器发热,并干扰通讯控制系统。如果不对发电单元输出电流进行滤波而直接并网,高次谐波电流将注入公用电网造成谐波污染。目前针对并网逆变器的研究主
随着农村旅游经济的发展,农家乐餐饮废水的排放量日益增大,其对周边环境造成的威胁也越来越大,因此对餐饮废水进行适当有效的处理是亟待解决的环境问题之一。传统餐饮废水处