三维探测中单幅单目图像深度估计方法的研究

来源 :四川大学 | 被引量 : 0次 | 上传用户:lawrenceccc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
三维探测技术具有广泛的应用价值,在地形获取、自主定位、实景模拟、工业生产等诸多领域具有重要的推广及理论研究意义。作为三维探测技术驱动核心的场景深度信息获取是计算机视觉领域的热门研究课题之一,近年来受到了研究人员的广泛关注。传统深度信息获取方法大多采用基于多视图的双目立体匹配或从运动恢复结构的方式,对输入图像及相机拍摄参数的限制要求较多,提高了深度信息获取的门槛。因此,采用更少场景图像输入、对相机硬件要求低且无需相机标定的单目图像深度估计方法具有极大的研究价值。本文以三维探测中单幅单目图像深度估计方法为研究课题展开研究,主要工作如下:(1)针对室外场景光照条件复杂、成像受不利天气影响较大的特点,提出一种联合场景散焦线索及大气透视深度线索的单目图像深度估计方法,用于改进单一线索的深度估计算法预测精度低、鲁棒性不足的问题。该方法基于散焦图像退化模型及局部一致性假设,估计并传播图像边缘稀疏散焦量,得到散焦深度估计;基于大气散射模型及暗通道先验理论,提取场景透视线索,获取大气透视深度估计。最终建立马尔可夫随机场优化模型,分析对比两种深度估计信息,融合来自不同线索的场景深度估计。在Make 3D数据集上的实验表明,该方法在获得场景完整深度估计的同时,有效避免了图像焦面二义性及模糊纹理二义性造成的深度估计误差,提高了深度估计精度及鲁棒性,与论文选定的对比算法相比,算法精度平均提升10%~13%。(2)针对室内场景物品种类数量繁多、物品间相对位置关系复杂的特点,提出一种结合注意力机制及多尺度特征金字塔模块的神经网络架构,用于改进同类型算法输出深度图场景轮廓不明显、局部深度细节丢失的问题。该方法引入扩张卷积、非局部自注意力机制、空间金字塔池化、跳跃连接(Skip-Connection)等网络部件,不仅提升了深度估计的精度,而且增强了模型对输入图像全局上下文信息的提取能力,使输出深度图富含场景局部细节信息。此外,还提出一种结合场景结构一致性的深度估计损失函数,不仅通过最小化深度值差异来优化深度估计精度,同时对预测深度图中图像高频细节失真施加惩罚,确保输出深度图能够保持良好的边缘细节。在NYU-Depth V2数据集上的实验表明,相较于同类基于深度学习的深度估计方法,该方法在深度估计性能上具有一定的优势,与论文选定的对比算法相比,深度估计误差平均降低约6%,精度提升约3%;此外,算法生成的预测深度图具有良好的视觉效果,场景轮廓清晰,局部深度细节丰富。(3)针对嵌入式硬件平台功率低、可移动性好、扩展性高等特点,本文还深入研究适用于嵌入式移动平台的快速单目深度估计算法。具体的,在当前已有算法的基础上优化模型结构、削减模型参数量、提高模型推理效率,解决嵌入式设备无法满足神经网络模型实时深度估计的问题。该方法选用了更加紧凑的网络架构设计,删除了用于优化模型性能的不必要附加网络模块。实验表明,该方法在略微牺牲模型深度估计精度的同时,有效缩减了模型参数规模,使之能够运行在硬件资源受限的嵌入式平台实现实时单目深度估计,突破了功率和能耗限制,实现了在30W功率下每秒33帧的处理速度,能够满足特殊环境下的应用需求。
其他文献
阴影技术作为重要的渲染技术之一,在帮助人们理解三维空间中物体的几何形状、大小、及相对位置起着至关重要的作用。由于符号距离场具有能够表达三维空间场景信息的特点被广泛应用于渲染高质量的软阴影效果。然而,现有利用符号距离场进行软阴影渲染的算法由于遮挡率估计不准确,造成半影收缩等问题。针对该问题,在充分研究一阶符号距离场特点的基础上,本文提出了一种基于一阶符号距离场的软阴影改进算法。其基本思想是,通过一阶
随着工业大数据规模的不断扩张,面向工业场景下的大数据智能分析应用逐渐兴起。但在实际应用中,工业数据存在规模量大、分布不集中、结构复杂且类型多样的问题,且由于企业数据分布不均和数据管理能力不佳等因素,使企业在进行所需的数据分析时受到阻碍。因此,如何进一步挖掘工业数据价值成为关注焦点。通过构建数据共享(Data Sharing,DS)平台,加强优势企业的合作和数据开放,可以有效解决企业间的数据孤岛问题
人脸识别技术是计算机视觉领域的一个重要研究方向,有着无接触性、信息采集成本低、自动化程度高等优势,在越来越多的实际场景中都得到了应用。目前为止对于限制场景下的人脸识别技术已经较为成熟,但是对于非限制场景下的人脸识别仍然是一项挑战。其中,复杂的光照条件使得人脸图像出现大范围阴影,图像质量变差;图像中的人脸存在平面旋转、位置偏移、小幅度姿态变化引起识别精度降低;如何全面地利用人脸图像的信息将多种特征进
立体视觉是通过模拟人类的双目视觉,获取环境深度信息的任务,它的原理主要是通过计算成像和数学建模预测物体在三维空间中的深度,以达到还原场景三维信息的目的。立体视觉作为计算机视觉当下最为火热的研究方向之一,被广泛应用在自动驾驶、虚拟现实、增强现实、三维测量与三维重建等热门领域。在计算机立体视觉中,最为常用的方法是双目立体视觉。双目立体视觉的难点在于如何正确建立双目图像之间所有像素的一对一的映射关系。因
精准农业以物联网为基础,通过部署传感器和研究人工智能技术来控制果实/农作物的生产过程,主要包括:农业产量估测、农作物智能化病害检测以及生长过程品质监控等,以更低的成本提升果实产量等级,经济效益更大化。当前,针对葡萄视觉产量预估的工作主要是从基于检测的葡萄串检测和基于回归的葡萄颗粒计数这两个方面进行开展的。然而,这两类方法相对独立,且覆盖场景有限,并伴随着较大的产量预估误差。对此,提出了串-粒融合的
近年来,随着监控摄像头的普及和城市安防的需要,行人重识别成为了计算机视觉领域越来越重要研究的课题。其潜在的应用领域也越来越宽广,在刑侦破案、智慧城市、无人超市等领域有着广泛的应用前景。早期的行人重识别技术是通过手工提取行人图像的特征,如今基于深度学习的方法在行人重识别技术上应用已成为研究的热点。针对行人重识别,相关研究者已经做了很多的工作,然而依然存在一些需要解决的问题。一方面行人重识别数据采集困
随着现代计算机视觉的不断进步和发展,三维重建技术引起了学术界和产业界的广泛关注,在模型缺陷检测、智能机器人视觉、3D打印等领域有着非常广泛的应用,尤其是对室内场景进行实时稠密的高质量的三维重建是机器人、增强现实等领域关注的重点。三维重建算法可大致分为双目立体视觉的三维重建和基于RGB-D传感器的实时三维重建。基于双目立体视觉的三维重建,一般是通过多个视角的观察数据帧和帧间的视差信息来计算出物体的深
随着测序技术的发展,生物大分子序列数据量也飞速增长。数据挖掘作为从庞大的数据中提取出未知、隐含及具备潜在价值的信息的技术,被广泛应用于生物信息领域,用于探索其生物意义。其中,三维基因组学是近些年来基因领域的研究热点,研究表明基因组的三维结构与基因的转录调控以及表观遗传存在相关性,然而物种间的基因组三维结构的比较分析尚未在植物中得到广泛研究。因此以杨树为例,使用数据挖掘技术对胡杨和新疆杨进行三维基因
染色体图像分类,是临床上进行染色体分析的关键步骤之一,在遗传疾病的诊断和肿瘤学研究中具有重要意义。得益于计算机技术的发展和进步,使用计算机进行自动化的染色体分类,成为了近年来的热门研究。染色体是非刚性物体,容易发生弯曲,弯曲的染色体会影响网络的精确率,需要对弯曲的染色体进行矫直。现有的染色体矫直方法主要分为切割矫直法和骨骼关联矫直法,这两种方法存在一些局限性:切割矫直法,通过切割图片矫直染色体,会
随着网络的普及以及大规模食物数据的涌现,为了有效获得所需的食物信息,食物计算领域的跨模态菜谱检索得到了广泛关注。跨模态菜谱检索是食物图像和菜谱之间的相互检索,跨模态菜谱检索的难点在于食物图像和菜谱之间的关系极为复杂:有较多的食物图像外观相似且部分图像存在着干扰信息;在烹饪过程中有的食物配料变得不可见或者配料外形会发生变化;烹饪指示中暗含着配料与食物成品图像的某种关系。现有研究方法存在的问题:1.由