单目图像深度估计算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:zjhzjhzjh111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,人工智能的快速发展改变了人们的生活。许多人工智能相关技术如无人驾驶、智能机器人等需要依赖物体的深度信息,因此深度估计成为了计算机视觉领域一大热点问题。其中,单目图像深度估计算法具有采集设备成本低且适用性高的优势,是目前深度估计算法的重点研究领域。本文主要研究了基于深度学习的单目图像深度估计算法,有效提高了深度图像的精度。主要研究工作如下:(1)总结了图像深度估计的研究背景以及意义,并概述了国内外图像深度估计算法的发展现状。介绍了深度估计的网络结构、几何基础以及常用数据集,为本文算法的研究和实验分析奠定了基础。(2)针对室内复杂场景深度估计预测不准确且边缘模糊的问题,本文采用监督学习的方法,提出了基于多尺度注意力导向网络的深度估计算法。算法首先设计了一个端到端的编码器-解码器模型,编码器以多个尺度进行特征提取。为了保证更好的深度连续性,解码器结合残差学习以及通道注意力融合,对提取的多尺度特征逐步优化细节以及场景结构。考虑到多次下采样导致深度图细节的丢失,设计了边界增强模块,通过引入空间注意力,提升不同物体的类间对比度以增强图像的边界细节。实验结果表明,在NYU-Depth-v2室内图像数据集上,该算法生成的深度图像相较于目前主流的Hu算法,在均方根误差RMSE指标上降低了约2.1%,并且表现出更细致的物体边缘轮廓。(3)针对室外场景的真实深度信息较难获取的问题,本文采用自监督学习的方法,提出了基于稠密特征融合的自监督深度估计算法。算法框架包括深度估计网络和位姿估计网络两部分,通过将两个网络分别生成的深度图和位姿向量利用相机模型原理合成出重建帧,比较重建帧与原始帧的相似性以此作为损失函数训练网络。此外,算法设计了注意力特征融合层以及对应层级的稠密连接,增加了对上下文信息的有效利用,改善了复杂路况下深度预测精度不高的问题。实验结果表明,在KITTI室外图像数据集上,该算法生成的深度图像相较于目前主流的Godard算法,在均方根误差RMSE指标上降低了约3%,且训练过程无需依赖真实深度图,实用性更高。
其他文献
目的:本研究的主要目的是在4年随访时间内评估中国南方人群中体圆度指数(BRI)和体脂肪指数(BAI)与新发左心室肥厚(LVH)的关系。并确定新的体型指标是否能比传统的更好地预测LVH。方法:这是一项回顾性队列研究。该研究调查了825名同时具有基线超声心动图评估和4年随访结束时超声心动图评估的研究对象,纳入的受试者在基线时左室质量指数(LVMI)正常。研究探讨了体质量指数(BMI)、腰围(WC)、腰
不可控性出血是创伤后早期死亡的主要原因,且创伤后期的伤口感染和愈合也是一个十分具有挑战性的课题。现有止血材料存在止血效果差、不可降解、抗菌性差等不足。因此,开发一种成本低廉、生物相容性好,既能高效快速止血,又能抑制细菌感染且促进伤口愈合的可吸收性生物医用止血材料势在必行。甲壳素是一种丰富的天然高分子,因其具有良好的生物相容性、生物降解性和抗菌活性而被广泛应用于止血和伤口愈合领域。然而,传统的纯甲壳
白酒检测是保障酒质和质量安全的重要措施,目前检测技术存在着耗时长、效率低、重复性差等弊端,红外光谱检测技术具有快速简便、重复性好、灵敏等优点,近年来在白酒快速检测中被广泛应用。文章概述了中红外光谱和近红外光谱在白酒的质量指标、食品安全指标、生产过程关键指标等方面的研究应用进展,并探讨了当前红外光谱在白酒应用中的技术难点及未来发展方向。
Black-Scholes模型是当前市场上应用最广泛的期权定价模型,波动率是模型中唯一的不能直接观察得到的参数,将市场上的期权真实价格代入Black-Scholes模型反推得出的波动率称之为隐含波动率。对同一时间期限,相同股价,对执行价格和隐含波动率进行拟合,并绘制曲线,会产生一个倾斜或微笑形状的曲线,该现象称之为隐含波动率微笑。隐含波动率微笑现象说明标准Black-Scholes期权定价模型存在
提高围护结构的热工性能是降低建筑能耗最有效的途径之一。受低纬度热带海洋环境影响,我国南海岛屿地区常年高温高湿,具有显著的极端热湿气候特征,当地围护结构的热工性能受到湿传递显著影响。然而,现有研究对极端热湿气候下的墙体内热湿传递机理揭示不足,湿传递对围护结构热工性能的影响规律尚未探明。为此,本研究以经典热湿传递理论为基础,建立并验证了针对当地气候下墙体内部热湿耦合传递的数学模型,应用新建模型对墙体热
弛豫铁电体具有优异的介电、压电性能,广泛应用于超声换能器、传感器、滤波器以及致动器等电子器件之中。铌镁酸铅-钛酸铅(PMN-PT)是一种典型的弛豫铁电体,是目前研究热点之一。2018年,Li发现Sm掺杂PMN-PT铁电陶瓷具有超高压电常数,可以产生大场诱应变效应。然而,对该材料场诱应变效应的研究尚不够详尽,如场诱应变温度稳定性及其内在机制。有基于此,本论文以PMN-PT陶瓷为研究对象,通过固相两步
随着网络电视用户量的不断增长与边缘接入技术的显著提升,边缘设备呈现爆发式增长。边缘网络资源比专门用于大型视频直播系统的云流量成本要更低。去中心化的直播系统作为一种经济实惠的解决方案,其频道切换响应时间却比传统广播电视要长得多,影响观众的体验质量,因此,本文聚焦研究网络电视直播频道的数据分享与快速切换问题。基于现有相关研究工作基础,首先,本文提出一种基于边缘数据分享的网络电视直播频道快速切换系统原型
高频链矩阵整流器(High-Frequency Link Matrix Rectifier,HFLMR)是一种由三相矩阵变换器演化而来的新型拓扑结构,它一般由输入滤波器、双向开关矩阵、高频变压器、整流器、输出滤波器五个部分组成。由于该拓扑无大容量储能元件且串联有高频变压器,因此具有能量密度高、体积小、输入电流标准正弦、单位功率因数等优点,在对重量、体积、效率以及隔离需求较高的场合具有一定的应用价值
关系抽取作为信息抽取技术的一个重要子任务,为自然语言处理的许多领域提供了必要的技术支持,具有重要的研究意义和应用价值。传统方法通常采用人工标注获取实体关系标注数据集。但是这种方法繁琐昂贵,只能对少量样本进行标注,很难学习到有效的实体关系特征。为此,远程监督方法提出以外部知识库作为监督源,通过知识库中的先验知识自动标注大量句子,有效地避免有监督模型数据集规模过小的问题,成为了关系抽取的研究热点。然而
人脸表情识别是人机交互的重要内容,可以广泛应用于医疗、游戏娱乐、驾驶安全等多个领域。现阶段的基于深度学习的人脸表情识别研究中,多数是使用卷积神经网络的结构以提取图像的空间域信息。这些方法主要有两个方面的问题:一是虽然识别率较高,但是通常网络结构比较复杂,参数量和计算量都很大,在表情识别任务中显得臃肿;二是大多数研究使用整张人脸图像作为输入,较少地考虑充分利用和人脸表情相关的局部区域信息。针对这两个