联合Vision Transformer和卷积神经网络的高分辨率遥感场景分类研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:intel20107
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
得益于对地观测技术的不断发展,遥感数据呈现出海量化和多元化的趋势,且影像分辨率也不断提高。其中,高分辨率遥感影像表现出高度细节化的空间结构,能够充分表达地物和场景的关联,极大地推动场景级地物解译的发展。然而,如何建立地物底层表达和高层场景语义之间的映射关系是高分辨率遥感影像场景分类的关键问题。传统方法严重依赖手工特征的构造,且对于复杂场景的描述能力不够,进而限制分类精度的提升。作为深度学习的重要组成部分,卷积神经网络(Convolutional Neural Network,CNN)能够通过层级结构逐步提取复杂场景影像中的抽象语义信息,形成具有判别力的特征表达。但是,场景中地物目标的空间布局对于高层语义理解至关重要,基于CNN的方法难以有效捕捉上下文关系,导致判别能力存在瓶颈。因此,为有效获取判别性强的深度语义表达,论文开展联合Vision Transformer和卷积神经网络的高分辨率遥感场景分类研究,主要内容和创新点如下:(1)针对CNN模型所提特征鉴别力有限的问题,论文设计了一种基于Vision Transformer和CNN联合网络的场景分类方法。该算法包含Vi T流和CNN流:Vi T流中利用Vision Transformer揭示高分影像的长距离依赖关系,得到全局语义特征;而CNN流主要基于CNN模型挖掘场景图像的局部结构信息。并且,两个模块所提特征相互补充,能够有效提高特征的表达能力。此外,算法中设计了联合损失函数优化整个网络,可以有效增加类内聚集性,提高场景级特征的可分性。(2)为有效结合场景图像的局部结构特征和长距离依赖信息,尽可能地减少额外的计算复杂度,论文设计了一种基于Vision Transformer和知识蒸馏的场景分类方法。该算法将Vision Transformer作为教师模型,指导小规模学生网络Res Net18进行场景分类。借助于知识蒸馏的策略,Res Net18能够充分汲取两个模型的优势,进而同时探索高分场景的上下文依赖特征和局部细节特征,且计算复杂度较低。为使模型间的信息传递更加流畅,同时优化Vision Transformer和Res Net18,且教师模型的学习率逐步降低到零,蒸馏损失系数提高一倍。
其他文献
光频域反射仪(Optical Frequency Domain Reflectometer,OFDR)凭借高空间分辨率、高灵敏度、宽动态响应范围的优势被广泛应用在精密制造业、航空航天、外科手术等领域。传统的光频域反射仪系统都需要一个独立的的辅助干涉仪用于校正光源非线性效应,为了突破这个限制,本论文通过在传感光纤前集成一个在纤式辅助干涉仪设计了一种简化的光频域反射测量系统,并对该系统的可行性以及性能
学位
pH值是衡量溶液酸碱度的一个指标,在气象监测、医疗诊断、化工合成等领域具有十分重要的意义。传统的pH值测试工具有电学pH计、pH试纸、pH指示剂等,其操作相对简单但存在体积过大、无法定量表征pH值等不足之处。光纤pH值传感器由于尺寸小、抗电磁干扰、成本低等诸多优势而得到了广泛的研究,但目前报道的光纤pH值传感器大多是单点式测量,存在无法实现分布式测量的问题。针对上述问题,本文利用光频域反射仪(Op
学位
研究与设计微小尺寸(mm、μm量级)样品扫描场景下的Micro-CT几何参数校正算法,对于保证高分辨率Micro-CT重建图像质量具有重要的意义。本文开展了面向祖母绿宝石样品应用的Micro-CT扫描几何参数校正算法及其加速算法的设计与研究工作,主要是:(1)面向祖母绿宝石小尺寸样品无损检测与评价的应用需要,研究并设计了基于局部线性嵌入算法的Micro-CT几何参数校正算法。该算法针对Micro-
学位
作为一种新颖的成像模式,X射线荧光CT(X-ray Computed Tomography,XFCT)因其结合了X射线CT(X-ray Computed Tomography,X-CT)及X射线荧光分析(X-ray Fluorescence Analysis,XRFA)的优点,能够实现对样本内部元素定性和定量的高精度无损测量,在医疗检测领域备受青睐。然而,受限于射线源、探测器以及造影剂材料的技术水
学位
近年来,视频数据因其广阔的应用领域而呈现指数级爆炸式增长,迫切需要利用计算机对视频数据进行自动分析处理。人体行为识别是自动分析处理视频数据的首要任务,也是包括检测分割等许多其他任务的基础。因此,对人体行为识别进行研究具有重要意义。本文将视频序列所包含的时序运动信息划分为长时和短时分别进行建模并将二者融合。针对短时运动信息,设计了短时运动特征提取模块,通过对相邻视频帧利用像素点相关性匹配的方法提取像
学位
随着现代科学技术和经济的快速发展,人们的生活质量水平不断提高,使得人们对自身健康和安全逐渐有了更多的关注。在健康监测方面,虽然具有健康监测功能的可穿戴设备已经得到商用,但是其使用的传感器大多数为刚性材料,从而导致较差的佩戴舒适感,以及影响信号的精确获取;而在安全防御方面,很多时候因为不能及时提供预警而导致相关事故的发生,带来经济的损失甚至危害人体的安全。因此,用于监测人体健康和活动的柔性可穿戴传感
学位
拉曼光谱技术是“指纹”识别光谱,能够实现待测分子的定性定量检测。但拉曼散射信号的强度较弱,容易淹没在较强的荧光信号里面,这是目前该技术存在的主要问题。表面增强拉曼散射(Surface-enhanced Raman scattering,SERS)是一种能够有效增强拉曼散射信号的光谱技术。该技术通过将分子置于金属纳米结构的超强局域电磁场(即热点)中,从而大大增加分子的拉曼散射。近年来,随着光谱技术和
学位
生化样品的快速定性定量检测已成为广受关注的重点课题,例如,致病细菌的准确识别有利于医疗卫生领域迅速开展针对性治疗,传统的菌种检测方法成本高、耗时长且多数不适于现场检测;多组分化学样本成分的检测在违禁品检查和药物分析等领域应用广泛,常见的色谱-质谱法存在仪器设备昂贵和操作步骤复杂等不足。因此,寻求一种快速、准确的生化样本定性、定量检测方法,具有重要的科学意义和应用价值。表面增强拉曼散射(Surfac
学位
窄线宽多波长激光阵列在光纤通信、多组分气体探测以及微波光子学等领域具有广泛的应用前景。增大激光主腔长法以及外腔反馈法是目前用于实现多波长分布式反馈(Distributed Feedback,DFB)激光阵列线宽窄化的常用方案,延长激光谐振主腔只能将激光阵列的线宽压缩至百k Hz量级;过长的外腔会减小激光的纵模间隔,增大跳模几率。鉴于上述两种方法都难以在常态条件下对激光阵列的线宽进一步深度压缩,本文
学位
无机金属卤化物CsPbX3(X=Cl、Br、I)钙钛矿纳米晶由于具有吸收系数高、带隙可调、光致发光量子产率(PLQY)高和成本低等优点,在光电领域有着良好的应用前景。其中,相比于CsPbCl3和CsPbI3,CsPbBr3纳米晶具有较高的PLQY和较好的稳定性,可作为颜色转换层被广泛应用在照明和显示领域。然而,制备CsPbBr3纳米晶主流的热注入法具有能耗高和工艺复杂等苛刻条件,不利于大规模商业化
学位