基于通道注意力的自监督深度估计方法

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:tigermin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
过去的几年里,随着图形图像处理设备性能的大幅提高,深度学习席卷了计算机视觉大部分领域。目前为止,SFM(Structure From Motion)是计算机视觉中少数还是由传统方法占据优势的领域之一。传统的SFM算法大多依赖于几何计算,首先通过特征匹配找到两帧之间的相匹配的特征点,再利用几何线索的显式推理来重建三维结构,从而得到深度信息。这些算法经过多年的研究和优化已经取得了优秀的成果,但是在环境明暗变化较大、相机抖动和图片纹理较少的情况下难以取得好的结果。而计算机视觉领域上的大量文献和应用证明,依靠神经网络强大的学习能力和庞大的数据集,深度学习在提取图片特征和找出潜在规律的能力上比传统的方法效果更好。于是近年来基于无监督深度学习的深度估计算法应运而生,出现了许多相关的研究和改进。虽然现有的方法已经能够生成高精度的深度图,但是他们忽略了图像中的通道信息,通过对通道之间的依赖关系进行显式建模,并根据建模结果重新校准通道权重能有效地提高网络的性能,从而提高深度估计的精度。本文从两个方面引入通道注意力机制以及在损失函数中加入了深度提示,以增强网络模型的能力,具体的工作如下:(1)本文在网络中插入SE(Suqeeze-and-Excitation)模块以提高网络模型获得特征图中通道间关系的能力。(2)本文设计了一个多尺度融合通道注意力模块,有融合多尺度像素特征和重新校准通道权重的功能。(3)本文在训练中加入深度提示,在重投影损失中提供一个可选择的深度值做参考,以达到引导网络跳出局部最小值的效果,进而使本文的方法在精准度上更进一步的同时减少误差,深度图在细小结构上也得到了优化。(4)为了解决系统中存在的尺度一致性问题,本文尝试用光流估计网络代替位姿估计网络,用深度对齐位姿的方式解决尺度问题。(5)本文通过在公开数据集KITTI数据集上的实验,证明本文提出的方法在精准度,误差和深度图的具体效果上优于现有的基于自监督深度学习的深度估计方法。
其他文献
人脸年龄合成包括人脸的老化和逆龄化,其目标是基于输入的人脸图像对指定年龄阶段的面部形态进行预测。该技术具有重要的应用价值和广阔的发展空间,一直是计算机视觉领域的研究热点。近些年,在深度学习理论的推动下,人脸年龄合成技术取得了突破性进展。但由于人脸的老化现象较为复杂且受到多种因素影响,现有算法难以兼顾人脸图像的面部轮廓和纹理变化,且无法细粒度建模人脸的连续老化现象。此外,随着人脸年龄合成要求的不断提
学位
随着大数据时代变革的逐步推进,也因为在需要对对象进行多种不同视角特征的描述上更具有优越性,多视角聚类分析法获得了更多的研究重视。相比于简单连接所有视角特征的单视角聚类,能够分别处理每个视角特征的多视角聚类可以联合优化每个视角,从而能尽可能地利用每个视角特征提高最终的聚类效能。多个视角的数据特征内包含着丰富且互补的信息,联合优化多个视角的数据特征能够更好地去探究数据的内在结构关系。如何能够更好地结合
学位
人脸年龄评估是预测图像中人脸的年龄信息,是一种极具发展潜力的生物特征识别技术,对建设智慧与安全城市具有重大的意义,在人机交互、视频监控和市场分析等领域都得到了广泛的应用。随着深度学习技术的发展,越来越多的研究人员将深度学习技术应用于人脸年龄评估。然而,多数基于深度学习的模型直接从人脸样本中学习单一的年龄特征用于年龄评估,导致学习到的年龄特征鲁棒性不强、易受性别、种族、环境、光照和姿势变化影响。此外
学位
随着工业4.0标准的推进和深度学习、大数据等技术的发展,机器人正逐步走向智能化。机器人在现实生活中的应用十分广泛,除了在工业应用中帮助人类更高效地完成工作以外,还可以在日常生活中代替人类完成各种工作任务。而机器人能像人一样完成各种复杂的工作,依靠的不仅仅是外部的硬件设备,更重要的是机器人的决策系统,机器人的自主决策能力和策略迭代优化是实现智能机器人决策系统的关键。目前智能机器人的应用领域涉及军事、
学位
在人类社会的发展过程中,距离测量一直都有着极其重要的作用,其测量的精度也成为当今航空航天技术、装备加工制造、精密测量等领域的重要指标。随着科学技术的发展以及科学研究的不断深入,人们也一直在追求更高的绝对测距精度。传统的激光测距已经难以满足当前工业场景中的大尺寸、高精度、实时性测量要求,飞秒激光频率梳的出现,为解决这一问题提供了技术方法。飞秒锁模激光器发射出超短脉冲信号的脉冲宽度在飞秒量级,具有较高
学位
推荐系统是用来解决信息过载的一项重要技术,然而,传统的推荐模型中存在数据稀疏性和冷启动的问题,从而导致推荐精度不高。研究表明,一般的解决方案是通过添加一些额外的语义信息来提高推荐的准确性。而知识图谱包含了大量的语义内容,可以作为推荐系统的辅助信息。图卷积神经网络可以很好的处理非欧几里得结构,即图结构数据。将知识图谱和图卷积神经网络结合,利用图卷积神经网络来挖掘出知识图谱中节点之间的特征。另外,用户
学位
借助热红外线对微弱热源的观测能力,开展大范围非接触式异常热源观测技术的研究对公共安全领域具有重要的意义。在热源观测领域中热红外图像是微弱异常热源的重要信息载体。受限于器件性能与复杂环境干扰,热红外图像存在分辨率低、对比度差、噪声干扰与纹理模糊等问题。相应的,热红外图像承载的微弱异常热源存在像素信息少、易被噪声干扰与纹理细节不足的问题。图像超分辨率算法通过构建低分辨率图像与高分辨率图像之间的空间映射
学位
复杂网络任意两点之间的最短路径计算方法不仅应用于信息通信、交通运输、灾害预警等众多实际应用场景,也是复杂网络特征量计算的依据。因此最短路径问题得到了众多领域学者的关注。随着大数据时代的来临,网络规模已远超出最短路径经典算法的适用范围,近似算法成为了可行的替代解决方案。然而现有的近似算法在效率上的提升都是以牺牲大量的预处理或搜索精度为代价的,无法同时满足大规模网络最短路径计算的高准确度和低延迟的需求
学位
近年来,学者们为突破冯·诺依曼计算系统的局限性和实现更强的计算系统,且在生物脑科学的启发和在硬件算力快速发展的背景下,提出了诸多关于类生物神经网络的计算技术,而在对生物神经网络的模拟中,脉冲神经网络(Spiking Neural Network,SNN)是目前较多学者研究的类脑计算技术。脉冲神经网络的神经元节点具备时间序列动力学特性,其突触结构通过稳态可塑性学习规则来达到平衡,并且能通过不同的拓扑
学位
信息抽取技术作为自然语言处理领域最重要的底层任务,旨在从非结构化的文本中抽取出高密度的知识元,其最重要的两个子任务是实体识别和关系抽取。知识图谱具有强大的语义推理能力,构建高质量的产业知识图谱能够推动行业信息化转型。然而,互联网上的非结构化数据通常蕴含着复杂的文本结构,传统的信息抽取算法无法应对这种复杂的语义信息。本文通过改进现有的算法,围绕如何有效处理重叠三元组这一问题展开研究,主要研究内容如下
学位