基于深度神经网络的视觉位姿估计方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:liongliong550
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉位姿估计是指利用附属于运动体(如车辆、机器人等)的视觉传感器采集的图像数据来估计其位姿变换的过程,是基于视觉技术的定位导航、三维重建、轨迹推算等领域的重要研究方向。该工作目前主要集中在视觉里程计的算法研究中,是视觉SLAM系统的关键构成模块,具有广泛的应用场景。通常,视觉里程算法计沿袭了特征提取、特征匹配和追踪定位的经典流程,并利用其它优化策略调优。但是面对复杂场景时,该类方法往往存在稳定性不足的缺点。深度学习技术在处理图像理解任务时表现出强大的特征抽象和表达能力,为视觉位姿估计问题提供了新的研究思路。该方法能够从训练数据中学习相机位姿的表征方式,不需要依赖任何相机参数,而且能够学习到场景的真实尺度,具有传统方法不具备的优势。因此,本文针对基于深度神经网络的单目视觉位姿估计方法进行研究,并完成以下工作:1.结合任务性质和深度学习特点,将单目视觉位姿估计问题建模为一种有监督的回归学习问题,进行分析和设计整体算法框架,并根据特征表达方式的不同将该问题分为两个层面进行研究。2.利用稠密光流能够表征帧间运动信息的特性,提出了一种基于双流卷积神经网络的位姿估计模型。该方法将以图像帧和光流图为输入的卷积神经网络进行级联以完成特征提取,利用共享的全连接层和欧氏距离损失函数直接预测帧间位姿向量,进而构建位姿回归模型。该方法既简化了特征提取过程,又能够融合不同层次的特征,提高了模型的预测精度。3.进一步地,对上述算法进行改进,设计了一种基于端到端学习的位姿估计模型。该算法模型仅以图像帧作为输入,融合光流提取网络和位姿估计网络,利用自编码网络重构光流场,提高光流特征的鲁棒性。通过位姿估计误差和光流重构误差双重约束,保证网络的训练效果,提高模型的位姿估计性能。同时,该算法将特征提取过程在深度学习框架下实现,无需引入外部算法,这种端到端的训练方式使得模型有潜力得到性能上的整体提升。综上,本文基于深度神经网络逐步设计实现了端到端的位姿估计模型,并在公开数据集上设计仿真实验,实验结果表明该算法在各项性能指标上均具有较好的效果,避免了外部参数依赖,同时能够估计真实尺度,具有实际应用价值。
其他文献
课堂教学评价是小学语文教学活动中不可或缺的关键,对于提高课堂教学质量,从而更好地激发学生学习语文的兴趣具有重要作用。
党的十八大提出,到2020年全面落实依法治国基本方略,人权得到切实尊重和保障。可见中国共产党全面推进依法治国的价值目标在于尊重与保障人权,并且人权话语与依法治国之间存
摘 要:改革开放以来随着科学技术的进步和发展以及人们认识水平的提高,水泥混凝土问世以来一直是建设路面最重要的结构材料,得到广泛的应用。水泥混凝土是指由水泥、砂、石等用水混合结成整体的工程复合材料的统称。通常讲的混凝土一词是指用水泥作胶凝材料,砂、石作集料;与水(加或不加外加剂和掺合料)按一定比例配合,经搅拌、成型、养护而得的水泥混凝土,也称普通混凝土。水泥混凝土抗压、抗弯、抗磨损,稳定性也是非常之
将分离到的8种PRV分离株的g E、TK基因与国内外的毒株进行核苷酸及氨基酸的序列同源性分析,结果发现,分离毒株的gE、TK基因与15株国内外已发表的代表毒株核苷酸及氨基酸的序
安徽省濉溪县前常铁铜矿位于濉溪县城东南部,东临宿州市,西与陈庄铁矿相距4km,和三铺铁矿毗邻,隶属濉溪县四铺乡三铺村管辖。本文对常铁铜矿区的水文地质条件、特征进行分析,
随着我国经济实力的逐渐增强,大学生创业越来越广泛地得到政府的支持,这与我国的科技成果转化和经济体制转型具有着密不可分的联系,由要素驱动、投资驱动逐渐向创新驱动发展,
齐鲁文化是山东的地域文化,山东更因齐鲁文化而名扬四海。其悠久的历史,灿烂的文明在中国历史上占据着重要的地位,留下了无数珍贵的遗产,成为今天旅游开发的源头活水。齐鲁文化博
获取1株高效降解烟碱的融合子,以解淀粉芽孢杆菌T11和边缘假单胞菌作为亲本菌株,使用溶菌酶破除亲株细胞壁后以40%PEG-6000诱导解淀粉芽孢杆菌T11原生质体和已热力灭活的边缘
[目的/意义]丰富区块链舆情信息传播领域研究内容,推动区块链技术在舆情领域应用,打造"风清气正"舆情空间。[方法/过程]基于扎根理论研究范式,构建舆情平台区块链技术能力对
[目的/意义]针对高校的科研数据服务现状,文章探究科研数据管理(Research Data Management,下文简称RDM)服务能力及评价指标,为提升高校RDM服务能力水平提供借鉴。[方法/过程