三维大规模点云场景下的感知算法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:taizi0204
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着无人驾驶、高精地图、智慧城市等新概念的提出,许多场景都需要进行以点云数据为基础的3D环境感知和交互,大规模点云场景下的感知算法的研究具有广泛的应用前景。点云是一种重要的三维几何数据结构,其可以准确、直接的反应真实的世界,因此本文以三维点云数据为载体,研究大规模点云场景下的分类、点云分割以及3D目标检测三个场景感知挑战任务。在大规模点云场景下的分类任务中,考虑到由于采样不均匀,传感器精度等因素的影响,提出了两种大规模场景下的点云滤波算法,旨在提高数据质量;因为点云数据在空间中具有高度的稀疏性和无序性,为此将点云结构特点与图的特点联系起来,提出了一种新颖的用于提取点云空间的局部几何关系算子——图嵌入式网络,利用点与点之间的相似性作为3D特征筛选依据,加强点云空间局部特征;为了全面的描述点云特征,根据点云空间分布的特点,设置了14个不同的点云观测视角对点云数据进行投影,补充点云2D特征信息,加强点云网络的局部特征表达能力;基于点云的2D特征和3D特征,设计了一种复合视觉特征的点云分类网络,在Model Net40数据集上验证了算法的有效性和鲁棒性。在大规模点云场景下的分割任务中,首先分析了传统的3D点云分割算法的局限性,因此为了尽可能多的保留点云的几何信息,设计了一种编码—解码结构金字塔注意力网络,在增大感受野地同时,来增强每个点的强语义特征,并结合图嵌入式网络设计3D点云语义分割网络框架,该框架均适用于零件分割和语义分割两种点云分割任务。在大规模点云场景下的3D目标检测任务中,将分类网络和分割网络进行组合,组成新的点云处理结构Pyram Net,增强点云特征的表达能力,3D目标检测框架在点云空间中的列方向上进行特征编码,并应用Pyram Net进行多尺度特征提取;其次,设计了一种新的三维区域候选网络(3D Region Proposal Network,3D RPN)——3D Matrix,通过在不同方向上进行降采样,更好的适应不同宽高比的物体;最后在KITTI验证集上证明网络结构的有效性和可行性。综上所述,本文将传统算法和深度学习技术相结合,处理大规模点云场景下的三种场景感知任务,在权威的数据集上验证了上述研究的有效性和可行性。
其他文献
在计算机视觉领域的诸多研究方向中,视觉目标检测与跟踪是最基础也是最重要的研究方向之一,同时也具有广泛的工业应用场景。视觉目标检测与跟踪是计算机对环境物体进行感知理解最基础也是最重要的步骤,为进一步的高层级的理解任务奠定了基础。而在众多的目标检测与跟踪的算法中,对目标的定位准确度是其算法整体性能的关键所在。针对视觉目标检测任务,本文着眼于目标定位准确度,通过分析检测结果,发现了当前的视觉目标检测算法
红外图像凭借其被动探测成像和全天候不间断工作的特性,在以科技对抗为主导的现代军事对抗中发挥着重要的作用。由于红外图像的广泛使用,一系列军事方面的红外图像目标检测问题成为科研人员们研究的热点之一。其中远方舰船、导弹、鱼雷等军事设备因为目标距离远、信号弱、小范围等固有属性,在红外成像系统中呈现出弱小目标的特性,该类目标的检测问题成为学者们在该领域长期关注的难题。高辐射的海杂波信号使得目标若隐若现,由于
随着人工智能技术的发展,表情识别的研究取得了突飞猛进的进展。大多数算法的良好表现依赖于训练集和测试集的分布一致性条件,但是诸如图像采集条件、个体属性等因素的不同会使得数据间存在较大的分布差异。因此当把模型应用到新的未知分布的数据上时,其识别精度会有一定程度的下降。跨数据集的表情识别问题具有重要的学术价值,该问题的解决有利于推动表情识别的广泛应用。现有的跨数据集的表情识别方法缺乏对干扰信息的有效排除
需求工程是设计和编写工业软件的关键步骤。以人工为主的需求建模方式非常耗时且容易出错,现有的需求建模方法大多需要人工来完成,或者根据完整的形式化或半形式化需求规范文本进行建模,仍然需要项目工程师事先花费大量的时间和精力,将系统需求完全理解并编辑成规范化的需求文本。因此需要一种自动化的方式可以在极短的时间内建立精确的需求模型。为了实现快速、准确的需求建模,且适用于智能制造领域的功能性与非功能性需求,本
高精度建图和定位是自主代客泊车系统的关键技术之一。在室内停车场环境下,车辆变动频繁,且存在行人干扰,这会导致据其生成的三维场景特征地图频繁更新,对计算资源要求较高。而且,全球导航卫星信号也因遮挡不可使用,这进一步增加了室内停车场低成本、高精度定位的实现难度。基于以上考虑,本文融合低成本的环视鱼眼相机信息、惯性测量单元和轮速编码器测量信息,设计了一种基于地面标志语义类别信息的高精度建图与定位方法,可
随着大数据和人工智能技术的发展,数据的重要性变得越来越凸显,并被经济学人杂志称为数字时代的石油。然而大数据在其产生巨大的价值的同时,也带来了数据隐私泄露的风险。为了实现在数据发布过程中,既保护数据的隐私,又保持数据的可用性,引入随机化的扰动是一种很常见的方法。基于随机加噪的数据发布一方面能够提供严格的隐私量化标准,另一方面通过合理的设计噪声能够保持数据的可用性,也因此成为数据发布领域的研究热点。然
三维激光扫描得到的点云数据是真实世界中的场景在计算机中的三维数据集合,包含了大量的语义信息。场景的三维点云语义分割研究受到了广泛的关注,在众多领域发挥出了重要作用。室外场景中的物体种类较多,分布不均匀,背景环境高度复杂,扫描得到的点云分布不均匀,存在近密远疏的问题,得到的扫描场景还会存在噪声与遮挡等情况。上述种种因素使得室外场景的三维点云语义分割成为了极具难度的挑战。真实世界中经常包含大量干扰因素
核定位信号(NLS)是与载体蛋白结合的蛋白质肽,是蛋白质序列中的一段连续的氨基酸序列片段,用于将核蛋白运输到细胞核中。作为核定位的重要信息,核定位信号的鉴定可以帮助阐明蛋白质功能,进一步的成为对众多疾病的研究和治疗的一种主要研究方法。然而,这种信号的实验鉴定是昂贵的,目前只有有限数量的核定位信号被确定,因此开发用于核定位信号的预测算法是重要的。尽管目前已经提出了几种核定位信号预测算法,但它们通常对
燃烧是能量转换的一种重要形式,目前被广泛应用于电站锅炉、内燃机等场景中,对于人类社会的正常运转具有战略意义,因此进行燃烧诊断,研究燃烧机理从而提高燃烧效率具有重要价值。然而燃烧过程中会产生大量中间产物,它们种类繁多且在燃烧区域内空间分布不均匀,导致燃烧过程非常复杂,这对燃烧诊断工作提出了巨大的挑战。在众多的燃烧诊断方法中,以平面激光诱导荧光、火焰自发光成像为代表的成像类燃烧诊断技术能够充分利用不同
随着对无人车相关技术研究的迅速发展,如何在未知的复杂室外场景下进行高精度定位已然成为一个研究热点。单目视觉里程计是其中一种成本较低,应用范围较广的定位手段。其主要任务是从视觉传感器获取的单目图像序列中解算出相对位姿变换,进而增量式地重建运动轨迹。传统方法的视觉里程计通过多视图几何原理求解位姿,对相机参数和环境变化较为敏感,且流程复杂。近年来深度学习技术的快速发展为视觉里程计提供了新的思路,可以实现