基于深度学习的遥感图像语义分割技术研究

来源 :中国科学院大学(中国科学院计算机科学与技术学院) | 被引量 : 0次 | 上传用户:shaochao0926
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,遥感影像的数据量越来越大,准确地对遥感影像进行自动化分析成为了迫切需要解决的问题。图像语义分割旨在将输入图像分割成互不重叠的区域并对每个区域打上不同的语义标签,从而得到输入图像的细粒度解析结果。使用图像语义分割技术自动地对遥感影像中的不同区域进行精确划分,有助于重大自然灾害地区受灾道路、桥梁及房屋等目标的准确定位,从而为下一步的灾害救援提供指导。基于深度学习技术,本文主要以提高分割精度和加快推理速度为目标对遥感图像语义分割任务展开研究。本文的主要贡献如下:(1).针对普通语义分割模型应用到遥感场景中时由两种分类误差带来的低分割精度问题,本文提出了一个全局-局部注意力网络并将其命名为GLANet,GLANet致力于同时消除遥感图像语义分割任务中两种类型的分类误差。以全卷积网络为代表的普通语义分割模型应用在遥感图像语义分割任务中时的分类误差可以被归类为两大类别:大目标中的大面积分类错误和局部边缘分类不准确。之前的基于注意力机制的方法通常致力于捕获丰富的全局上下文信息,这种全局上下文信息对于改善大目标中的大面积分类错误而言效果显著,但目标边缘的错误归类问题依然存在。本文提出的全局-局部注意力网络能够同时对全局上下文和局部边缘细节进行建模。具体而言,GLANet包含两个分支:全局注意力分支和局部注意力分支,两个分支中共计嵌入了三种不同的注意力模块来分别对特征图中空间位置之间、通道之间和边缘区域的语义关联进行建模,随后的融合模块能够将两个分支提取到的信息进行融合以进一步增强网络的特征表示能力。得益于两个分支提取到的丰富的全局上下文信息和局部上下文信息,GLANet能够在遥感图像语义分割任务中同时提高大目标内部和物体边缘的分割精度。本文在Vaihingen和Potsdam两个流行的遥感场景语义分割数据集中进行了详尽的实验,实验结果表明GLANet相比已有工作可以取得更高的分割精度。(2).针对分割精度高的深度学习模型往往由于模型复杂从而导致推理速度慢的问题,本文提出了一个新颖的双关联蒸馏框架并将其命名为DRD,DRD能够更多地缩减学生模型和教师模型之间的差距从而更好地实现分割精度和推理速度间的权衡。近年来,基于卷积神经网络的语义分割模型已经可以取得很高的分割精度,但是这些高精度的模型非常笨重并且推理速度较低,这限制了它们在现实生活中的应用场景。知识蒸馏是一种在分割精度和推理速度之间实现折衷的有前景的技术。本文对知识蒸馏技术进行研究并提出了一个新颖的双关联蒸馏框架,双关联蒸馏框架同时考虑了特征图中空间位置之间的关联和通道之间的关联,并将这两种类型的关联信息从复杂模型(教师)迁移到紧凑模型(学生)。具体而言,DRD对教师模型的特征图和学生模型的特征图分别计算空间关联图和通道关联图,然后通过最小化对应关联图之间的距离进行特征对齐。由于模型复杂、参数量大,教师模型通常可以学到比学生模型更多的知识,因此教师模型能够捕获到更丰富的空间位置之间的关联以及通道之间的关联。将这些关联信息从教师模型迁移至学生模型能够帮助学生模型在特征分布层面更好地模仿教师模型,从而提高学生模型的分割精度。本文在遥感领域两个广泛采用的基准数据集(Vaihingen数据集和Potsdam数据集)中对双关联蒸馏框架进行了评估,实验结果表明本文提出的框架能够显著提高学生模型的分割精度并且不会产生额外的计算开销。
其他文献
得益于各国月球轨道器的在轨工作,现已获取了大量可用于摄影测量三维制图的轨道器影像数据。这些传感器在不同时间、不同视角条件下对部分月表进行了重复观测,形成了多重覆盖特性。多视影像相对于单立体影像包含更多的信息量,理论上可得到质量更优的数字高程模型(Digital Elevation Model,DEM),从而更好地支持月球科学研究或月球探测工程任务。由高分辨率DEM提取的坡度值普遍被认为更接近于真实
高精度的城市绿地空间监测对优化城市绿地空间结构、维护城市生态平衡以及开展绿色城市建设具有重要意义。随着我国卫星技术的快速发展,兼具高空间分辨率与宽覆盖特点的遥感影像为城市绿地信息提取等领域提供了重要的数据保障;另一方面,深度学习语义分割模型的飞速发展,也为高分辨率遥感影像城市绿地快速、高精度提取提供了算法支撑。本文选择北京市五环内城市绿地为研究对象,选取多时相的高分2号遥感影像作为数据源,提出一套
城市群是城市化发展到高级阶段的城市组织形态,由特定地域范围内多个城市聚集而成。近几十年来,城市化已成为人类历史中最重要的变化之一,深刻影响着人类社会的发展和自然环境的变迁。夜间灯光遥感在长时间、大尺度的城市化监测中具有广泛的应用。DMSP/OLS(1992-2013)和NPP/VIIRS(2012-至今)获取的夜间灯光信号是全球城市化监测的主流数据源,然而两代夜间灯光数据之间的数据差异阻碍了基于夜
近年来,城郊山区的旅游业高速发展,使其成为城市居民短途郊游的佳选,而城郊景区往往以生态旅游、寺庙为主且依山而建,这类区域往往具有建筑与植被混合分布的特点被称为森林城镇交界域(Wildland–Urban interface,WUI),故密集性的游客活动给其带来巨大的潜在性火灾安全隐患。该区域的火灾安全管理倍受地方政府的关注,但其信息化水平低常导致应急救援时信息获取不及时,错过最佳救援时机,带来巨大
位于丝绸之路经济带帕米尔高原的萨雷兹湖,是世界上已知最大的高原堰塞湖,多年来水位保持着波动上涨的趋势,其坝体崩解导致湖水下泄将会给下游中亚多国人民带来巨大灾难。萨雷兹湖水量变化特征及其驱动因素缺乏具体研究。本文采用Landsat影像、ICEsat及Cryosat-2测高数据、DEM数据开展了萨雷兹湖水资源及流域冰川变化监测研究,结合气象等数据通过多因素相关分析探索了萨雷兹湖水资源变化的驱动因素。主
湖泊水位是水循环和气候变化的重要指示因子。雷达测高技术作为水位观测的替代手段,近年来被广泛应用于湖泊水位监测中,尤其是无水文观测的湖泊或跨国界湖泊。传统脉冲有限雷达高度计由于其脚印点较大,在观测中小型湖泊时容易受到陆地噪声信号的干扰。随着多普勒延迟技术与开环跟踪技术在Cryosat-2、Jason-2/3、Sentinel-3A等新型雷达高度计中的应用,中小型湖泊水位高精度反演成为可能。本文即针对
非洲锰矿资源丰富,储量、资源量排名在世界上均列第一。非洲锰矿成因类型种类多样,有前寒武系条带状铁建造(BIF)型、海相沉积型、陆相(三角洲湖相)沉积型、与岩浆作用有关的热液型锰矿床等,其中以前寒武系条带状铁建造(BIF)型和海相沉积型最为重要,其资源量分别占非洲锰资源量的61% 和35.9%。非洲锰矿资源广泛分布于南非卡普瓦尔克拉通盆地北部边缘、刚果克拉通盆地西北部边缘、西非克拉通盆地边缘及阿特拉
作为信息表达和交流的重要工具,文字被广泛地应用于人们的日常生活和工作中。同时,手写也是每个人在社会中赖以生存的技能。随着计算机的发展和普及,手写文字识别作为一种高级的人机交互方式在近几十年来引起了人们的广泛关注。虽然研究者们在手写识别领域已经取得了大量突破性的进展,但是基于深度学习的手写识别算法仍然有很大的改进空间,因此如何设计更为准确高效的手写识别算法是本文的核心研究内容。另外,随着传感技术的发
伴随着计算机算力和互联网数据量不断地增长,深度学习在计算机视觉、自然语言处理、语音识别等多个领域取得了巨大的成功,但缺乏可解释性严重限制了其在现实任务尤其是安全敏感任务中的广泛应用。而统计学习模型具有较好的解释性,计算量小,且相较于深度学习有更高的鲁棒性,但统计学模型在稀疏数据上比如图像识别任务中的性能远远低于深度学习模型,导致使用统计学习模型的人越来越少。当深度学习模型的性能触及瓶颈的时候,深度
随着计算机技术以及数字成像设备的发展,通过图像处理软件对数字图像进行操作的门槛也变得越来越低,导致我们很难区分该图像是否经过了处理。而且,如果一些经过处理的图片被应用于不正当的地方,那么就会给社会带来很大的危害。图像对比度增强操作是实现图像模糊和润饰的一个常用操作,当图像经过拼接或者复制粘贴之后,在边缘一般会产生视觉或者统计信息上的畸变,而图像对比度增强就是用来消除这种畸变的。图像对比度增强作为图