【摘 要】
:
近年来,深度学习技术蓬勃发展,自动驾驶技术以及其他移动机器人技术也受其影响而取得了巨大的进步。在这些技术领域中,稠密而精确的深度信息,即距离信息,对于多种任务都有着重要的辅助作用。然而,使用To F传感器或激光雷达采集到的深度图均是稀疏的,因此深度补全任务受到了越来越多的关注。本文针对现有的深度补全算法的局限性开展了两方面的研究。Transformer网络结构在自然语言处理领域和计算机视觉领域均取
论文部分内容阅读
近年来,深度学习技术蓬勃发展,自动驾驶技术以及其他移动机器人技术也受其影响而取得了巨大的进步。在这些技术领域中,稠密而精确的深度信息,即距离信息,对于多种任务都有着重要的辅助作用。然而,使用To F传感器或激光雷达采集到的深度图均是稀疏的,因此深度补全任务受到了越来越多的关注。本文针对现有的深度补全算法的局限性开展了两方面的研究。Transformer网络结构在自然语言处理领域和计算机视觉领域均取得了巨大的成功,其中的多头注意力层能构建全局注意力矩阵并对输入其中的特征进行加权,这一处理过程与深度补全任务中的深度值空间传播机制十分契合。因此本文针对Transformer在深度补全中的应用进行了研究,构建了GSPT模型。在本部分研究工作中,本文首先提出深度记忆信息的概念,并将其与稀疏深度图相关信息进行结合,构建了深度值嵌入,并使用Transformer解码单元完成了深度值嵌入信息在全局的空间传播;其次,针对现有Transformer结构不完全适用于深度补全任务的问题,本文对其进行改进并构建了Trans UNet子网络,在提取全局信息的同时完成了深度信息的全局空间传播;最后,从平衡提取全局语义信息与保护局部深度信息的角度出发,完成了本文GSPT模型的编码器设计。本文的GSPT模型在KITTI深度补全验证集和筛选验证集上达到了先进的补全精度,消融实验数据证明了此项研究工作中各项改进的有效性。以三维目标检测为代表的点云处理任务常常将激光点云中每个点的激光反射率数据作为算法输入信息的一部分,然而现有的深度补全算法却均未对反射率信息进行利用,本文提出使用激光反射率数据能够对深度补全过程进行辅助,并围绕如何证明激光反射率的有效性,以及如何设计一种方式以发挥其作用这两个问题开展了研究。在本部分研究工作中,本文首先基于针孔相机成像模型进行了激光点云到RGB图像坐标系的投影,生成了数据集中各样本对应的激光反射率图;其后,本文对激光反射率数据进行分析,并结合现有深度补全模型的特点,设计了激光反射率特征提取网络IFE,以及四种形式的激光反射率特征利用模块IFU,并将其与包括GSPT在内的三个深度补全模型进行了结合。KITTI深度补全数据集上的实验数据表明,本文所设计的IFE与IFU能够为现有深度补全网络带来精度上的提升,消融实验数据表明该种提升的确来源于激光反射率数据,证明了激光反射率信息对深度补全任务的辅助作用。
其他文献
视觉目标跟踪任务是计算机视觉领域的基本任务之一,在近年来火热的人工智能研究的各个方面都有其身影。单目标跟踪任务就是在视频序列第一帧中给定一个要跟踪的目标及其边界框,要求跟踪器在后续帧中找到该目标。主流的单目标跟踪方法都是通过互相关计算来实现特征融合。互相关运算是一个局部线性匹配过程,只考虑了模板与搜索区域相似度,融合方式简单,容易导致语义信息丢失,并且在某些特定场景下不支持互相关计算。此外,现有的
图像修复任务旨在利用计算机为图片的缺损区域生成自然、合理的填补内容。而把图像修复拓展到3D场景,则衍生出了3D图像修复任务。单一的图片被投影到3D空间后,由于前背景之间存在遮挡关系,前景边缘附近会有缺失内容,因而难以还原完整的3D场景。3D图像修复任务就是通过填补部分缺失的3D场景信息还原出2个视角之间的转换效果,这种多个视角的集合就是3D图像,3D图像渲染为视频后会有逼真的视觉效果。2D图像修复
目的 探讨不同检验方法检测生殖道沙眼衣原体感染结果准确率的临床应用。方法 对106例疑似生殖道沙眼衣原体感染的患者尿道、宫颈拭子和尿液分别用酶联免疫吸附试验(ELISA)、抗原快速检测试验(免疫层析试验)和生殖道沙眼衣原体核酸检测(PCR),比较不同检验方法诊断阳性率、灵敏度和特异度。结果 以生殖道沙眼衣原体核酸检测为“诊断标准”,其阳性率为97.17%(103/106),酶联免疫吸附试验阳性率为
随着科学技术的快速发展,无线通信技术在智能制造、车联网、远程医疗、智慧城市等领域得到了广泛的应用。但在某些特定的工作场景下,比如封闭金属容器产生的静电屏蔽限制了电磁波的传输、强电磁干扰场合下无法正常使用无线电磁波通信。本文提出采用超声波代替电磁波作为信息传输的载体,利用方向性好、穿透力强等优点,可以克服静电屏蔽以及强电磁干扰对电磁波无线通信的影响,同时还不占用频谱资源。本文设计了一种基于超声波的低
无人机由于其高机动性、易部署、价格相对较低和良好的视距(Line of Sight,Lo S)信道等优势引起了广泛关注。对于将物联网场景由2D转化到3D,无人机起到了关键性作用。针对无人机辅助物联网场景,多数学者们研究无人机作为中继使用时,考虑的地面用户为单用户,结合子载波的场景相对较少。在研究无人机作为基站(Base Station,BS)使用时,对无人机能量效率(Energy Efficien
视觉感知一直是人类接触外部世界的主要感知方式,其中图像和视频作为视觉信息的主要载体成为了人类探索外部世界的基础。运用基于深度学习的分割算法对图像和视频中的主要前景对象进行分割,在广泛的实际应用(例如,视频监控、自动驾驶等)中发挥着重要的作用。尽管基于深度学习的全卷积神经网络已经在密集预测任务上取得了阶段性进展,但是依旧存在着诸多潜在的问题。由于图像中复杂的场景(例如,易混淆的对象或前背景低对比度)
区域分割任务旨在对场景中特定的区域进行识别,属于计算机视觉领域中的分支任务,在自动驾驶、地图元素检测及视频理解等方面被广泛应用。相比于传统方法,基于深度学习的区域分割方法准确率更高。但仅利用高阶语义特征进行区域分割的方法受限于目标区域的尺度,常出现分割结果不完整、精度低的情况。针对具体应用场景,利用先验知识对高阶语义特征进行增强和补充成为改善分割结果的重要途径。本文的第一部分针对遥感影像场景下道路
由于获取及存储信息的技术手段飞速发展,观测数据总是表现出高维度大尺寸的特性,大规模数据的分析和处理成为当今信息处理技术的核心和关键。相比于传统的基于矩阵的处理方法,张量(即多维数组)更加适合这种高维度数据的表示和分析,它不仅能够直观描述高阶数据之间的多线性结构,还具有模型精简、可唯一辨识性强等良好特性,因此近年来被广泛用于多维数据的表示和处理中。然而,传统的张量分解算法在处理大规模数据时会面临内存
手部三维模型重建的目标是在给定的图像中恢复整个手部的姿态及表面形状信息。由于该任务可以广泛应用于虚拟/增强现实、机器人抓取、智能家居等众多领域,因此在近年来逐渐成为了计算机视觉领域的研究热点之一。然而,考虑到人手自由度高、自遮挡和自相似严重的问题,许多方案依赖手部三维真值进行全/强监督训练并取得了很好的成果,但也由于三维标注很难获取而限制了方案的实用性。同时,现有的方法更关注网络在某个数据集上的性
自动视频分割任务近年来扮演着越来越重要的角色,该任务不仅被应用于视频会议、自动驾驶等针对特定类别目标的场景,还广泛被应用于包含世界万物的视频场景。然而,由于视频场景复杂且物体在时序上外观变化剧烈,多目标自动视频分割任务在实例分割精度和时间连续性方面仍面临着巨大的挑战。现阶段多目标自动视频分割的研究成果共有的问题包括:相似物体区分困难以及复杂场景物体丢失等等。针对这些问题,本文的研究工作基于时空域的