基于点云与图像特征的深度学习三维目标检测方法研究与实现

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:LOVE85954709
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
三维目标检测是自动驾驶领域中的一项关键技术,能够在三维空间上实现对目标的定位与识别。使用单一的点云或图像数据进行三维目标检测有其局限性,许多研究者因此尝试使用多模态的数据来改善检测效果。本文基于深度学习理论,对使用激光雷达点云和图像的多数据源三维目标检测方法展开了研究。本文主要研究工作与创新之处如下:1)分析了三维目标检测中的关键技术与主要流程,针对使用多模态数据的检测方法进行了研究,设计了一种检测框架,并通过进一步分析确立了Retina Net网络和Point Net++网络作为研究方向。2)提出了一种基于Attention机制改进的Retina Net二维目标检测网络。该网络通过在后端CNN模型输出的过程中加入可训练的过滤器来抑制背景特征、突出目标特征,进而加强Retina Net网络的目标检测效果。使用KITTI数据集在多种后端CNN模型上进行测试,Attention-Retina Net均表现出了性能的提升。3)提出了一种基于FPN思想改进的Point Net++点云特征提取网络。该网络借鉴FPN构建特征金字塔的思想,在Point Net++主干网络旁构建了一个自顶向下的分支网络来对点云数据进行多尺度特征提取。通过在Model Net40数据集中进行物体分类来验证该网络的特征提取能力。实验表明,FPN-Point Net++网络输出的多尺度特征拥有更强的特征表达能力,在点云物体分类中达到了更高的准确率。4)提出了一种基于点云与图像特征融合的三维目标检测方法,该方法使用一种新颖的投影方式将图像特征投影到点云上,将本文前两项研究成果串联起来实现三维目标检测。首先使用Attention-Retina Net在图像中进行目标检测,得到目标的二维边界框,接着对于每一个二维边界框,根据其观察视角将图像特征投影到三维空间中对应区域的点云上,最后使用本文提出的FPN-Point Net++对区域内的点云提取特征并回归目标的三维边界框。
其他文献
现实世界中,关系普遍存在于事物之间,其中不同类型事物间的关系适合用二分图来建模,它们可用于识别或表示单个事物,价值不可估量。为了让计算机理解并充分利用这些关系,我们需要为每个节点学习向量表示,使其可用于其它机器学习模型。因此有必要充分考虑二分图的属性,来设计适合二分图的模型。本文首先调研了图表示学习模型的现状及缺陷,发现它们不适用于二分图,未能同时建模二分图所蕴含的显式和隐式关系,或由于线性结构而
在轨道交通领域,客流计数能够实时监控不同区域的客流情况,为引导分流等安防措施提供了保障,也为票务清分提供了有效依据。随着深度学习的快速发展,利用神经网络已经是计算机视觉的常规办法,如何设计更加轻量化的模型同时不大幅降低检测效果,是基于深度学习行人检测问题中十分有现实意义的问题;同时在轨道交通场景中低视角的监控角度导致行人遮挡更为严重,需要研究更加适用的行人跟踪算法。本文针对轨道交通场景下,客流计数
MEMS微镜的日趋成熟为激光雷达扫描光路设计提供了新的思路,但是其有效镜面尺寸的限制使得光束准直扫描光路设计中难以兼顾小的发散角、大的扫描范围以及高的发射效率,给激光雷达发射光学系统设计带来了很大的难度。为此,论文引入遗传算法,研究了MEMS激光雷达扫描发射光学系统理想镜组参数的最优化设计问题,得到了满足光学系统约束条件的最优化设计结果。论文在深入资料调研的基础上,梳理了项目组已有MEMS激光雷达
学习样本间的距离度量是计算机视觉领域的一个基础而又重要的课题。近年来,随着深度学习在计算机视觉领域的快速发展,深度度量学习也得到了广泛的关注与研究。深度度量学习主要是通过深度神经网络学习得到满足距离关系的特征嵌入。尽管目前深度度量学习方法相较于传统度量学习方法已经取得了较大的进步,但其仍面临着一些挑战。大部分深度度量学习工作均基于正负样本对的相对距离的三元组关系展开,而基于正负样本对的绝对距离的二
机器学习涉及生活的各个方面并取得良好的效果,但传统的全监督学习算法需要大量的人工标注信息进行训练。在这种情况下,半监督学习(Semi-Supervised Learning,SSL)被提出并引起了广泛的关注。因为仅存在少量的标记样本,所以半监督学习算法往往受到带标签离异点的影响。为了提高半监督学习算法对于离异点的鲁棒性,本文基于Welsch损失函数设计了两个半监督学习算法并实现了一个验证系统,具体
随着社会的发展与科技的进步,信息技术亦得到了空前发展,在此背景下,基于互联网信息技术的新媒体成为了当下时代传媒行业的"新宠儿"。对于传统电视媒体而言,新媒体的兴起既对其造成了巨大冲击,也为其带来了新的发展契机。在新时期,日渐衰落的电视媒体若想突破时代的桎梏,则势必需要将自身的优势与新媒体的优势进行融合,实现二者的融合发展。为实现该目的,本文将对新时期电视媒体与新媒体融合发展的必要性、电视媒体与新媒
信息技术的高速发展使得网络空间安全问题愈发严重,传统的防御体系由于其确定性和静态性,已经无法应对未知的安全问题,网络空间这种不平衡的现状不断威胁着各行各业的信息安全。为了改变这一被动的局面,邬江兴院士提出了一套主动防御架构,即网络空间拟态防御架构(CMD)。该架构围绕动态、异构、冗余三大特性,针对未知的攻击行为,通过使系统内部发生不确定的变化,导致攻击者难以实现攻击目的。作为拟态防御架构中的重要环
三国,一个太多精彩人物出现的时代。因为这些风度卓然的人物,三国就成为了永恒的话题。司马氏家族能在这英雄辈出的时代,以晋代魏,不是偶然。这个家族最杰出的人物、西晋王朝的真正奠基者司马懿到底是怎样的一个人?称自己为魏晋"贞士"的司马孚在这历史旋涡中是怎样挣扎的?戴着代魏和平吴大业光环的司马衷是否有着祖辈的文才武略?本期特别关注,诚邀三位专家,带我们一起走进"司马懿与他的家族"。
期刊
语义分割在图像的解释中起着重要的作用,对图像分析任务至关重要。语义分割是一样集分类、识别和定位于一体的任务。分类是指为每幅图像指定一个类别;检测是指对目标的定位和识别;而图像分割可以被视为像素级预测,因为它要将每个像素分类到其所属类别中。语义分割曾经也有很多基于图像处理和机器学习的方法,大部分都着眼于手工设计的技术来独立地识别每个像素点。在传统的方法中,随机森林和Boosting是最有效的策略。这
随着互联网技术的不断发展,互联网用户数量急速增长。由于大量的网络服务都需要对用户进行精准定位,因此IP地址定位技术的研究越发重要。IP地址定位,即根据网络设备的IP地址确定其在地理上的位置,通常通过查询已有的IP地址库,或利用IP地址定位算法来实现。目前,国内已有的IP地址库数据质量参差不齐,并且大多存在定位精度低、偏差大的问题。另一方面,传统的IP地址定位算法定位准确度低,模型复杂度高,也难以投