基于深度神经网络的稀疏深度图补全与多光谱图像的立体匹配研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:fan8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,由于对自动驾驶和视觉监控的需求,多传感器融合使用受到了很大关注。除了传统的RGB之外,红外传感器以及一些激光雷达等深度传感器也被广泛使用,准确的深度图的采集对于自动驾驶至关重要。目前的深度获取方法多种多样,其中一种方法是使用双目立体匹配预测视差,视差可以通过焦距转换为深度,这样的深度图可以大致得到场景的三维信息,但其精度存在误差。另一种方法是直接使用Li DAR相机捕获精度高但由于扫描通道数而稀疏的深度。这两种方法直接使用都不能满足视觉任务的需要。本文对现有获取深度图的方法进行了深入研究,主要包括基于彩色图像引导的稀疏深度图补全和多光谱图像的立体匹配。本文的主要工作和贡献如下:1.稀疏深度补全从Li DAR系统获得的稀疏深度图像并在相应RGB图像的引导下重建密集的深度图像。大多数现有基于全卷积网络设计的方法,在处理不同场景下的深度图时效果不好。在本节中,我们提出了用于稀疏深度补全的选择传播学习网络(SPL)。SPL利用有效矩阵和无效矩阵提取RGB图像和稀疏深度图像的中间特征,沿着两个单独的维度(空间维度和通道维度)预测注意力图,然后将其应用于引导两个分支的深度像素回归.SPL的贡献主要有以下三个方面。首先,我们设计稀疏选择模块(SSM)来简化任务并将其分割为由位置信息强相关的RGB像素引导的稀疏深度图补全和由RGB到深度图的转换网络。其次,我们提出了注意力引导模块(GAM),它通过空间和通道两个方向将输入的SSM的特征转换为注意力图,然后将其用于引导两个深度预测网络。第三,我们将两只分别由三个级联的输入和输出分别为四分之一、二分之一和完整的分辨率大小的深度图的子回归网络组成的深度预测网络合并,并使用多尺度训练的策略,同时也使用相同大小的相应的真值计算损失。我们的基于稀疏选择传播的深度预测网络大大减少了计算量,更容易探索RGB更通用的深度信息进行实现,也更容易挑战RGB和深度图像的模态差异。实验结果表明,我们提出的方法可以生成实时的低复杂度的密集深度图像,并且在准确性和鲁棒性方面也很有竞争力。消融实验证明了SPL模型的泛化能力和稳定性。2.除了SPL,在本节中,我们还提出了基于卷积神经网络的注意力引导的稀疏深度补全网络AGNet。不同于SPL的目标是使用雷达获取的深度补全,AGNet更聚焦于一个轻量级的模型解决结构光获取的深度补全。我们采用注意力模块从RGB图像中学习几何关系并获取多尺度深度特征。首先,我们使用稀疏深度图与有效矩阵作用下的RGB图像作为输入来生成初始预测的深度图像及其置信度图。然后,我们使用交叉空间注意力模块(CSAM)生成用于深度细化的注意力引导图。为充分利用彩色图片中的信息,CSAM分别用有效矩阵和无效矩阵作用下的RGB图像作为输入,生成引导深度值回归的注意力图。接下来,我们构建了一个多尺度学习网络,对不同尺度的稀疏深度图像进行编码,从而实现准确的深度补全。AGNet利用输入的稀疏深度图像对模型大小适中的粗特征进行编码。实验结果表明,AGNet在NYU v2数据集上实现了与最先进的深度补全方法相当的性能。3.交叉光谱立体匹配旨在从彩色(RGB)和近红外(NIR)立体图像对估计视差。它与传统立体匹配的主要区别在于不同光谱带图像之间有很大的差距,这使得交叉光谱立体匹配具有挑战性。在本节中,我们提出了无监督的基于多光谱图像融合的深度交叉光谱立体匹配。我们在交叉光谱图像转换后又设计了多光谱图像融合网络,以进一步弥补跨光谱图像之间匹配的差异。首先,我们从输入的RGB和NIR图像对中提取特征获得融合后的立体图像对。其次,我们基于视差注意力模块设计了立体匹配网络计算视差。对于损失函数,我们结合了四种损失:视图重建、材料感知匹配、循环一致性损失和平滑损失。我们将转换和融合后的光谱图像利用视差进行视图重建构建损失函数以进行训练,其中我们综合使用了融合立体图像对在背包、皮肤、草坪等材料好的匹配性能以及转换网络输出的伪红外图像对在光、玻璃以及光滑表面等材料的匹配性能设计了新的材料感知匹配损失函数。另外,我们还利用循环一致性视差损失来保证预测的左右视差一致,并使用平滑损失函数保证视差图的平滑。实验结果表明,我们所提出的网络结构成功地估计了对材料属性敏感的视差,并且在多种材料上评估的RMSE优于最先进的模型。
其他文献
频率选择表面(Frequency Selective Surface,FSS)是一种对电磁波具有选择性能的周期性阵列结构,其优异、灵活的滤波特性使其在飞行器的隐身设计领域具有广阔的应用前景。随着应用平台向高频带、高性能方向发展,并且表面形状往往为复杂曲面,制造公差、装配误差以及曲面投影误差等随机因素对FSS性能的影响变得不可忽视。然而,传统的设计方法着重关注平面单元性能的实现,无法保证不确定因素影
学位
随着电力电子技术的快速发展,超宽禁带半导体氧化镓凭借其4.6-4.9 e V的禁带宽度,以及临界电场高达8 MV/cm的优越物理特性成为新一代功率器件领域的研究热点。然而,β-Ga2O3由于目前缺乏合适的受主,无法制造出p型β-Ga2O3,因此大部分的研究都集中在单极器件,包括横向和垂直结构的场效应管和二极管。其中,垂直结构被认为是未来2-3年最有前景的商业化产品。对于未来β-Ga2O3的发展而言
学位
本文是一篇关于专利翻译实践的报告。伴随着现代科技发展脚步的加快,科技翻译已然成为国际间相互交流的一种重要内容。因此,科技翻译特别是科技日语翻译对更好地学习和引进外国先进技术起到重要作用。鉴于专利翻译具有清晰的逻辑结构,准确的表达方式,以及独特的专业术语,翻译时不仅仅要注重语句的表达,对原文的专业知识背景也需要有一定的了解。因此,我们有必要对专利项目翻译进行深入的研究与探讨。本文是根据延边汇延翻译咨
学位
给定一个视频和一个视频相关的自然语言问题,视频问答任务输出问题的答案。结合计算机视觉和自然语言处理的视频问答任务接近通用人工智能,有很高的研究价值和广阔的应用场景。视频中不同对象之间的关系所构成的结构信息非常复杂,制约了理解和推理,特征的融合与交互是视频问答的关键。得益于图神经网络在结构信息上的表征能力,跨模态交互可以被建模成图神经网络的更新。随着多模态融合技术的发展,基于Transformer的
学位
当前我们国家已经进入中国特色社会主义新时代,中国梦翻开了新的篇章,科学技术的发展交流,已经成为大国之间交流必不可少的话题。国家要强大,要发展,就离不开科学技术的支持。日本的科学技术能力历来领先于世界发展水平,笔者选择专利文献《固定ガスメータの判別システム》进行翻译实践,希望能够更好地促进中日两国之间的科技文化交流,提高我国科学技术水平。本报告共分为五部分。第一部分笔者对实践的具体情况和翻译文本的文
学位
随着国际化交流的日益发展,科学技术的飞速进步,和对外交流程度的日益加深,翻译已成为在社交,科技,知识全球化共享的必要推进方式之一。语言服务翻译领域也因而进一步扩大,所涉及的翻译内容也随之呈现多样化。随着翻译量的巨幅增长,翻译环境的改变,翻译人员的个人能力及综合素质也要与之全面提升,翻译质量的标准和规定也更加细化和严格。那么本次翻译由横河信息系统(大连)有限公司委托,由笔者参与的9人组成的小型翻译团
学位
随着遥感技术相关领域的飞速发展,遥感影像的应用需求也日益增加。遥感图像语义分割,作为一项理解遥感影像的关键视觉任务,已广泛应用于城市规划、智能农业、环境保护等领域。近年来,深度学习的快速发展促进了遥感图像语义分割性能的不断提升,但由于遥感图像数据本身具有图像尺度大、成像范围广、背景信息复杂多变的特点,现有方法仍然在分割多尺度物体时面临分割精度低的挑战。本文针对这些挑战,对遥感图像语义分割展开了研究
学位
无人机可以为深入理解和分析行人行为供独特视角,基于无人机影像的行人定位与识别已经成为无人机图像处理的热门研究领域。而人作为社会活动和军事活动的主体,对其在无人机视角下进行准确且快速的检测与识别具有重要的实用价值。针对无人机场景下的行人目标具有密集、遮挡严重、特征模糊、尺度变化大、中小目标多等特点,并考虑到实际应用的高效性,本文对现有的通用目标检测方法进行了深入探索,并出了一系列高效的基于深度卷积神
学位
中国作为发展中国家的代表性国家,致力于从“高速”经济到“质量”经济的转型,从而慢慢浮现出“一味地模仿只能跟在其他发达国家的后面,无法将其超越”的客观问题。这一转型,引起了许多公司与个人对“知识产权”也就是“专利”的重视。作为经济高度发达的日本,也作为专利大国,不少中国企业在借鉴日本专利,或在日本注册专利时必须借助“翻译”手段,将两国语言互相转换,以便达到更好的借鉴或发生不必要的产权纠纷,促使专利工
学位
随着日本国内人工成本的不断上涨,大部分日本IT企业都开始了信息系统开发业务的海外外包,其中,因人工成本相对偏低且同样是汉字文化圈的中国逐渐成为了主要海外外包对象国。在强烈的外包业务需求下,作为委托方和承包方进行沟通交流的主要媒介的信息系统开发相关文档的翻译需求也不断扩大。本翻译实践报告是根据笔者进行日本信息技术企业的信息系统开发相关文档的日译汉翻译的基础之上撰写而成的。翻译内容是从信息系统开发到正
学位