基于Transformer和空间注意力机制的遥感图像语义分割研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:bowangmosong1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
遥感图像语义分割作为重要的计算机视觉任务,其任务是在高维特征图上提取语义信息,在像素级别上对汽车、建筑、道路、树木等物体进行密集预测,常应用于地质探勘、辅助地图绘图等现实场景。在过去几年,基于CNN(Convolutional Neural Network)的遥感图像语义分割方法提升不大,其问题可以归纳如下:首先,CNN会在卷积、池化过程中丢失部分细节,导致深层特征图缺乏足够信息恢复图像信息;其次,CNN提取的特征具有局部性,导致像素与像素之间缺乏上下文联系;最后,浅层特征和深层特征提取的信息不尽相同,而许多语义分割方法未能有效利用这些信息。为此,本文分别提出了基于Transformer的编码器、基于非局部操作的双路空间注意力解码器和多尺度特征融合模块缓解上述问题,具体如下:(1)设计基于Transformer的编码器和空间注意力模块。Transformer模型是一种基于自注意力机制的深度学习模型,其通过比较序列间的注意力得分捕获上下文关系。然而,面向遥感图像语义分割的Transformer在最近才受到关注。为了填补这一空白,本文设计了基于Swin Trasformer的语义分割编码器,先将区域像素视为词向量,对图片进行展平;其次,对展平的图片执行窗口多头自注意力操作;然后,通过移动窗口实现跨区域的多头自注意力操作,扩大模型感受野;最后,使用图块合并对特征图进行下采样操作,再假设位置与位置之间存在直接关联性,使用基于非局部操作的单路空间注意力机制,提取像素间的相似关系。(2)设计基于非局部操作的双路空间注意力解码器和多尺度特征融合改良方法。在卷积神经网络中,由于池化层等常见操作只有有限的感受野,无法对远处像素建立上下文关系。为了解决该问题,本文对单路空间注意力解码器进行改进,利用双路分支为每个相对位置进行注意力建模。另一方面,在遥感图像语义分割网络中,浅层网络特征虽然包含更多细节信息,但缺乏语义相关性,而深层网络特征的全局信息表达能力更强,但缺乏细节。为了有效利用各层信息,本文基于特征金字塔网络,在编码器和解码器之间,设计了一种多尺度特征融合模块,通过多次1×1卷积和上采样操作,融合不同尺寸的特征图,有效建立了特征图的内在联系。在实验部分,使用两种不同的数据集对提出的模型进行验证,然后将该模型与一些主流遥感图像语义分割方法进行对比,以验证Transformer在遥感图像语义分割任务的可行性、双路空间注意力模块的有效性以及多尺度特征融合模块的必要性。实验结果表明,本文提出的网络在性能上不亚于基于传统CNN的遥感图像语义分割方法,在分割小物体上比大部分方法更好。
其他文献
随着遥感技术的蓬勃发展,高质量光学遥感图像的获取变得越来越容易,基于遥感图像的目标检测技术也已广泛应用于国防军事及民用经济等领域。近年来,基于深度学习的目标检测网络由于良好的特征提取及表征能力,在自然图像目标检测领域中逐渐成为了主流方法,取得了令人瞩目的检测效果。然而,因为遥感图像目标检测任务与自然图像存在较大差异,所以将自然图像的目标检测方法不做针对性调整与改进,直接应用于遥感图像效果并不理想。
学位
超声成像技术和X射线成像技术、磁共振成像技术、核医学成像技术被公认为现代医学四大成像技术。声场调控是获得聚焦超声,实现超声成像的重要途径。常用的聚焦方式有球压聚焦、固相声学透镜聚焦和阵列超声换能器。然而,球压聚焦易损坏压电阵元,固相声透镜声传输效率低,并且这两种方式一旦制成便不能调节。阵列超声换能器虽可实现动态聚焦和调焦,但工艺复杂,价格昂贵。因而,本文提出了一种基于声学液体透镜的可调声场超声换能
学位
随着声学的不断发展,对超声换能器及其测试系统都提出了更高的要求。超声换能器是进行超声成像的核心器件,超声换能器的核心参数主要有中心频率、频率带宽、声束宽度等,需要多种专用仪器测量。各种仪器价格昂贵、操作方式均不相同,既耗费资金又导致学习成本上升,因此需要开发集成多项功能的超声成像系统对超声换能器性能进行评价。LabVIEW能够便捷地连接仪器并进行控制,因此有必要基于LabVIEW开发超声换能器成像
学位
工业作为立国之本、强国之基。随着科学技术的稳步前进促使工业自动化逐步实现,在提高了生产力的同时,也使人力资源得到了高效利用。工业仪表作为机械运作的性能检测设备,已在各个领域普遍应用。监测工业仪表数据是保障机械安全、正规运作的必要环节。然而,大量企业及大小型工厂中均采用人为检测记录数据。这对企业来说,不仅带来高额的人力成本、造成生产效率较低,并且有时会在特殊环境下可能为人员带来意外安全隐患。因此在当
学位
目标跟踪技术在军用和民用领域都有很重要的研究意义,如军事领域中对敌机群的实时跟踪技术、对敌方导弹的跟踪拦截技术等,在民用领域中的无人驾驶技术、人脸识别技术等。本文主要针对目标跟踪领域中的多目标跟踪、航迹关联、航迹预测和航迹中断补全问题进行了研究,具体的研究内容如下所述:首先,研究了基于随机有限集(Random Finite Set,RFS)的多目标跟踪问题,阐述了目标运动模型和卡尔曼滤波算法,接下
学位
随着信息时代的不断发展,各类应用软件的问世给人类的日常生活带来了巨大的便利。但是随着软件需求的不断增长,软件开发的迭代次数也日益增加,在迭代过程中无法避免地会产生各式各样的缺陷。进行软件测试有可以重现和记录缺陷,进而改正缺陷,但是过度的测试工作会导致大量时间和人力成本的浪费。研究者们提出利用软件缺陷预测技术,通过软件的特征属性和缺陷数据构建预测模型来预测软件缺陷,它有助于合理分配人力和时间成本,提
学位
强大的军事实力是国家安全的坚实保障,在和平年代通常采用军事演习的方式来提升部队的作战能力,然而军事演习的成本较高,且无法重演作战方案,灵活度较低。在仿真技术不断发展的背景下,人们逐渐倾向于通过对抗仿真来进行演习,与传统的演习相比它的优势是成本低、安全以及可重复。仅需构建对抗仿真系统,即可模拟战场对抗环境,对作战过程、指挥决策过程进行仿真推演,并且能够实时地评估战场,比较各种作战方案的优劣,提高指战
学位
在现实生活中,多元时间序列数据存在于各个领域,在各行各业的分析预测中都起到了重要作用。这些研究领域涉及到了天气预测,以帮助农业种植和航空窗口预测;涉及到金融领域,以帮助股票分析和宏观政策制定等等。在过去,已经提出了很多的多元时间序列预测算法。最初应用于多元时间序列预测的方法是基于统计学的,而后随着深度学习的快速发展,很多深度学习算法也被应用到了这一领域。在众多的深度学习算法在多元时间序列预测领域的
学位
随着信息技术的日益发展,网络上的信息数据在迅猛增长的同时,也产生大量垃圾信息,导致人们无法及时有效的发现他们感兴趣的信息。推荐系统基于用户交互记录过滤无关信息,并向用户推送他感兴趣的信息,能够有效解决信息过载问题。但是传统推荐方法存在数据稀疏问题,而知识图谱能够结构化的组织和管理互联网中海量的实体信息和实体间的关系信息。因而,基于知识图谱的推荐方法成为研究热点。然而,现有使用知识图谱进行推荐的研究
学位
小样本学习期望构建一个仅训练少量带标签样本即可完成相应任务的网络模型,从而避免一般深度学习算法的大量数据收集与标记问题。细粒度图像分类意为对图像进行子类细分,由于其类内差异大而类间差异小的特点,采用传统强监督抑或弱监督的深度学习算法均成本高昂且效果不理想。而小样本学习算法无需大量样本与额外标注信息,能够在细粒度图像样本数量极少情况下,达到可观的分类性能。本文的主要工作内容如下:深入研究了现有基于度
学位