基于深度学习的图像深度估计算法的研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:leolee19820604
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由二维图像提取出图像场景的深度信息是计算机视觉中的经典问题。准确的深度信息能够更好的让我们理解场景的三维结构,了解场景中物体之间的三维关系。深度信息在自动驾驶、AR、VR、机器人导航等具有重要的应用价值。在景深估计算法中,利用传统的双目立体匹配算法存在着精度和实时性不能共存的矛盾,同时也存在着只能适用于特定场景的问题。近年来,随着人工神经网络的发展,尤其是卷积神经网络在图像上的应用使得景深提取取得了飞速的发展,众人提出的各种各样的有监督神经网络算法,使得其在实时性和精度都能够达到很好的效果,然而现阶段依然存在的问题是:带有景深图像的数据集严重不足且应用场景有限。因此,利用深度学习中的无监督景深估计的方法来实现对图像景深的高标准提取则是本文的研究重点。基于以上分析,本文主要针对基于深度学习对景深估计算法研究,主要研究内容和创新点如下:1、图像深度估计的深度学习框架相关原理。其中包括了人工神经网络原理与卷积神经网络的基本原理,卷积神经网络的基本结构、工作原理与优化过程,传统双目立体匹配的基本内容、工作原理和视点扩增的原理,以及利用深度学习对图像估计的不同的框架设计原理。2、研究了双目无监督深度估计算法。针对目前大多数效果较好的带有深度图的数据集的网络框架应用场景有限和数据集相对有限的限制下的情况下,本文提出了无监督双目图像估计算法,其中包括了无监督网络的设计原理、框架结构细节和效果图像以及在现实校园场景下和三维动画的应用效果图像。其中无监督算法的核心思路是利用左视图和通过网络估计的深度图像重建出来右视图,再与原右视图来计算损失,之后通过不断减小这个损失来优化网络。3、提出了基于深度学习对深度图像的优化算法。针对于当前不管是传统的立体匹配算法还是深度学习算法得到的深度图像都存在边缘处错误点和对比度差的情况,利用语义分割网络来实现对深度图像的优化算法,其中主要包含了利用语义分割算法将原RGB图像分割成不同区域,再将对应区域索引到对应我们所要处理深度图像区域然后处理该区域的错误点问题,之后再对其深度图像的不同区域进行不同的算法处理,从而实现对边缘模糊的问题以及错误点问题的解决,提高深度图像的对比度。同时也论证了对抗神经网络对深度估计及优化的可行性进行分析并且比较了传统算法Guilded Filter和TV(Total Variation)算法对深度图像处理的效果。
其他文献
大规模机器类通信(massive Machine Type Communication,m MTC)作为第五代(the Fifth-Generation,5G)移动通信系统的三大关键场景之一,广泛应用于智慧交通、城市大脑、健康监测等领域,为人类的生产和生活提供了极大的便利。与此同时,巨大的用户数、庞大的数据量以及复杂的业务场景,也对通信领域技术的革新提出了严峻的挑战,其中就包括对无线网络接入的控制
近些年来,随着移动智能设备的不断发展,运行于移动设备的应用程序越来越丰富,移动设备的资源和处理能力限制导致了某些应用程序无法满足用户的服务质量要求。克服这一问题的方法就是将移动设备上的计算密集型任务卸载到部署在网络边缘的云服务器上,称为移动边缘计算(Mobile Edge Computing,MEC)。然而,移动边缘云服务器的资源有限,不同的卸载策略和资源分配方式会显著影响用户的服务质量,因此,如
射频识别(Radio Frequency Identification,RFID)与传感技术是物联网的关键技术,其中,标签是射频识别与传感系统中必不可少的信息载体。与其他类型的标签相比,无源标签不含电池,因而成本低、结构简单且使用寿命长,但也存在功能有限等缺陷。因此,研究射频识别与传感系统的理论基础,探索无源标签的性能提升方法,实现不同应用场景下低成本、小型化、柔性的新型无源标签,对于射频识别技术
情感作为人类生活体验的一个重要基础,影响着人类的认知、感知和日常生活。因此,情感识别作为人机交互中的一个重要的研究领域,近年来越来越受关注和研究。情感可以通过多种方式表达,多模态情感识别已经成为情感识别领域的发展重心。本文以语音和人脸表情等模态为基础,分别研究了语音情感识别和人脸表情识别这两个单一模态的情感识别,并在此基础上采用特征融合和决策融合的方法来实现多模态情感识别。具体的工作如下:(1)首
随着深度学习技术的成熟和普及,以及在海量数据和丰富应用场景的催生下,以卷积神经网络为代表的深度卷积网络开始逐渐替代机器学习时代基于人工提取特征的传统算法。而不断逼近精度极限的代价就是网络深度、尺寸的增长,网络模型越来越趋于臃肿,这对于深度学习的产品落地化是一个严峻的考验。为了更好地在计算资源有限的设备端部署模型且不影响使用,模型压缩的相关研究应运而生。本文主要基于基础算法和具体应用场景,对模型压缩
随着工业4.0的到来,各行业正不断朝着智能化的方向发展,工业机器人作为工业生产中的关键技术之一,成为企业实现产业优化升级的重要部分。自动导引车作为机器人的一种,随着近年来各种导引技术的不断发展,其应用场景变得更加广泛,其中视觉导引由于其巨大的应用潜力成为自动导引技术中的研究热点。本文根据实际应用中在室内场景下的AGV小车行驶需求,提出一种基于场景识别、场景下辅助行驶和行驶中特征物检测的单目视觉AG
唇语识别任务是指通过说话人的嘴唇动作,识别出说话人的语言内容。唇语识别的关键是如何有效提取出能反映嘴唇运动信息的特征向量。深度神经网络可以通过目标函数和反向传播机制更新海量参数的权重,自动学习到与目标任务相关的特征,在唇语识别任务上取得了较好的结果,但是由于唇语识别任务本身的复杂性和嘴唇运动的多样性,唇语识别任务仍然存在很多难点和挑战。针对这些问题,本文提出了一种基于深度学习注意力机制的词语级别的
土木工程结构运营过程中受到环境侵蚀、材料劣化以及各类荷载作用,结构损伤逐渐萌生、发展甚至严重威胁结构的正常使用与承载能力,因而合理有效的结构健康监测与损伤识别技术是结构损伤早发现、性能退化早预警的有效保证。钢筋腐蚀是导致钢筋混凝土结构早期损伤的重要原因之一,如何准确获取钢筋的腐蚀信息包括腐蚀的位置与腐蚀的面积,是进一步评价腐蚀后结构性能的关键。桥梁支座损伤是影响桥梁结构性能的重要因素,有效监测桥梁
传感技术作为信息技术三大支柱之一,早已渗透入社会的方方面面中,像科学研究、食品安全、环境监测、疾病检测、化学化工等方面。但是随着信息社会的进步,各个领域对传感器件的要求提高了,由于电互连引起的“瓶颈效应”使得电子器件很难实现对大容量的信息的高速处理。而光信号的大宽带、超高速、可并行处理等优势可以很好地解决这个问题。目前用光子代替电子来加载信息已经在光通信领域取得了很多的进展,有效提高了处理信息的速
随着物联网技术的不断发展,家居设备的智能化进入了快速发展阶段。然而由于不同商家的产品之间相互独立,不同家居设备的控制方式不尽相同,导致整体家居产品的使用体验不佳。智能化的家居交互方式,能够有效改善智能家居产品的交互体验,其中,基于手势姿态的人机交互技术,相比于传统的遥控设备,更符合人们的日常操作习惯,交互方式更加自然,所以研究智能家居中的人机交互技术,具有重要的现实意义。基于以上现状,本文开展了基