【摘 要】
:
由于无人机和卫星图像视点的剧烈变化,导致视觉外观差异巨大,现有跨视角图像匹配方法性能难以提升,致使无人机视觉定位研究依然面临挑战。本论文在研究大量国内外跨视角图像匹配算法的基础上,分析已有模型不足,从像素级、特征级、决策级三个层面出发进行了改进,主要研究工作如下:(1)针对无人机-卫星视图间空间域差过大与空间布局信息的忽略问题,从像素级层面出发,结合手工特征和深度特征,提出了一种基于视角转换的前置
论文部分内容阅读
由于无人机和卫星图像视点的剧烈变化,导致视觉外观差异巨大,现有跨视角图像匹配方法性能难以提升,致使无人机视觉定位研究依然面临挑战。本论文在研究大量国内外跨视角图像匹配算法的基础上,分析已有模型不足,从像素级、特征级、决策级三个层面出发进行了改进,主要研究工作如下:(1)针对无人机-卫星视图间空间域差过大与空间布局信息的忽略问题,从像素级层面出发,结合手工特征和深度特征,提出了一种基于视角转换的前置图像生成模型。前置生成模型首先使用逆透视映射(IPM)进行坐标变换,显式地弥合空间域差,使投影图像与真实卫星图的空间几何特征大致相同,然后通过新提出的跨视角生成对抗网络(Cross-View Generative Adversarial Network,CVGAN)隐式地对图像内容及纹理进行细粒度的匹配和修复,合成出更为平滑且真实卫星图。最后通过大量定性和定量的实验,验证了该模型的生成效果,初步弥合了空间域差。(2)针对无人机-卫星视图间提取的视点不变特征判别性能差异大的问题,从特征级层面出发,以深度特征为基础,提出了基于多视角多监督网络(Multi-view and Multi-supervision Network,MMNet)的后置图像检索模型。该模型主要由四个创新模块组成。多监督学习:联合表征学习与度量学习能够有效解决单一监督学习导致的表征特征单一、类间类内距离极化问题;多尺度特征融合:融合全局与局部的多尺度特征能够有效缓解特征尺度单一导致的上下文信息缺失、旋转及位置偏移带来的匹配性能下降影响;重加权正则化策略和多视角平衡采样策略:能够有效克服数据集的视角样本不平衡局限性。通过在当前流行的无人机数据集University-1652上进行实验,MMNet在无人机定位任务的召回率(R@1)及平均精确率(AP)指标上分别达到83.97%和86.96%的精度。实验结果表明,该模型能够提取显著且几何一致的视点不变特征,有效提升了跨视角图像匹配的性能。(3)针对视点不变特征与视角转换方法割裂导致的性能提升瓶颈问题,从决策级层面出发,以深度特征对抗决策为基础,提出了多任务联合学习模型(Multi-task Joint Learning Model,MJLM)。其主要思想是在一个聚合框架体系内联合处理跨视角图像生成任务及检索任务,实现基于视角转换与视点不变特征方法的融合。具体来说,本文将给定的无人机图像和卫星图像映射到它们的潜在特征空间并建立联系,使用这些特征来完成这两个任务。一方面,后置检索任务确保生成卫星图的内容无限接近于真实卫星图。另一方面,前置生成任务使MJLM在两个视域之间学习几何一致的视点不变特征。通过在University-1652上进行实验,MJLM在无人机定位任务的R@1及AP指标上分别达到87.54%和89.22%的精度,相较于MMNet分别提升了4.25%和2.60%。实验结果表明,该模型更进一步提升了跨视角图像匹配的性能,优于其他前沿方法,并且在准确性与鲁棒性等方面表现良好。
其他文献
肌电模式识别是一种先进的智能信号处理技术,已被认为是一种可靠的用户意图分类的重要方法。目前相关的研究报告了在实验室里的高分类正确率,但在临床应用方面仍不能令人满意。其中一个重要的原因是,EMG-PR方法的稳健性仍然不够强,无法应对许多问题,如日常使用中的电极移位,肌肉疲劳,以及力度的变化。其中,力度的变化是影响EMG-PR方法性能的关键问题。因此,提高肌电模式识别方法的抗力变化的鲁棒性就显得尤为重
为了让人们能够从大量的文本信息中准确地获得关键性的内容,文本摘要技术被广泛关注。随着自然语言处理和深度学习技术的发展,很多基于深度学习的文本摘要方法被提出。本文通过对现阶段文本摘要模型进行研究,发现了针对中文的文本摘要模型会出现割裂语义,生成摘要不通顺,冗余信息过多,无法有效处理长句的问题。针对以上问题本文提出了一种抽取-生成式中文文本摘要模型,具体研究工作如下:(1)本文构建了适应中文的基于改进
由于雷达设备具有不接触性和信号保密性高等特点,使得雷达设备被广泛应用在居家养老、探测、搜救等领域,因此应用环境对雷达信号的处理提出了很高的要求,传统的信号时频滤波和特征提取,需要从时域变换到频域,再反变换到时域,这样的流程不利于并行操作,存在时间的滞后,本文提出了一种基于超宽带雷达的双通道输入跌倒信号检测方法,避开复杂的信号处理过程,只在回波信号时域的通道上做一次快速傅里叶变换和一次奇异值分解,在
随着移动互联网的快速发展,针对社会实事,社交平台上会出现大量的议论,这些议论文本存在数量大、话题多、结构口语化和语义信息不足的特点,特别是一些隐式情感语句,会存在暗讽、反话等语言方式,其情感特征并不明显,这些特点对传统的情感分析方法提出了较大的挑战,实验表明,单纯的文本序列信息无法满足隐式情感分析的需要。本文主要围绕着隐性情感的极性判别任务,在传统的仅仅依靠序列特征进行分类的基础上,通过引入语法结
随着科技的进步,光器件对小型化和集成化的要求越来越高。与传统的光学元件相比,二维的超表面具有独特的电磁响应特性,平面结构意味着制造工艺简单,还可以通过使用不同尺寸、不同形状的结构单元,使用不同的排列方式等,实现对光的强度、相位、波长和偏振等特性的调控。在纳米光学领域,超表面已经受到了人们的广泛关注。通过将纳米颗粒按一定的周期组成阵列,单个粒子的局域共振与周围粒子之间的电磁耦合会产生一种新的集体响应
在我国种植业发展新规划的时代背景下,“果树上山上坡,不与粮争地”的果业发展方针使山地苹果成为苹果产业发展的重要方向。然而,因山地独特的立地条件和气候环境,导致病虫害发生种类和规律不同于其他果区。本文以陕西榆林地区为例,概述了山地苹果主要病虫害发生种类及综合防控技术,为山地苹果安全生产提供技术支撑。
大数据时代背景下,网络产生的数据爆炸式增长,用户想获取符合个性化需求的数据信息变得十分困难。推荐系统是解决这一问题的有效方案,但是传统的数据存储和计算无法满足对海量数据的处理,所以推荐系统应运行在分布式的环境上。分布式环境部署的Spark使用内存对计算中间结果进行存储,可以快速的执行迭代算法,计算性能优秀,是推荐系统首选的计算框架。推荐算法是推荐系统研究的重点,但传统的ALS推荐算法忽略了经过时间
随着移动互联网的迅速发展,以QQ、微信为代表的社交软件逐渐成为人们日常生活中主要的交流工具,群组聊天则是其中的一种重要功能,产生了海量的群聊数据,话题发现技术可以分析出群聊所涉及的话题,使得用户可以快速获知某个群的热点话题,这对于提升用户体验具有重大意义。主题模型则是实现文本话题发现的一个重要方法,但是传统的LDA主题模型,将其直接应用于群聊文本主题挖掘,会由于群聊短文本稀疏性特征使得主题建模效果
随着自然语言处理技术在中文不同领域中的应用,以及深度学习相关算法的研究发展,利用自然语言处理技术实现对古文的处理与挖掘越发受到关注。古文自动断句标点处理是古文数字化处理的重要环节。面对浩如烟海的古文典籍,实现准确快速地自动化断句与标点,有利于古文语料处理的相关工作的进一步挖掘和研究。本文以纪传体史书文本为古文研究对象,针对Bi-LSTM-CRF基线模型局限于字符粒度处理不适用于纪传体史书文本的问题
本文通过参考抗寒苹果的研究相关文献,重点分析了国内32个苹果品种或砧木的特征和特性,以期为寒地苹果生产提供支持。