基于时空Transformer的遥感视频目标跟踪

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lichao0714900
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着遥感技术的飞速发展,遥感卫星捕捉到的视频数据包含了更丰富的地物信息,能更有效地完成城市交通管理、海洋监测、智慧城市等任务。然而,在遥感视频中跟踪对象并非易事。首先,遥感视频通常存在分辨率低、对比度低、视野宽的特性,这意味着视频中的物体密集且相互干扰,因此网络很难提取有效的特征。此外,目前主流的基于孪生神经网络的跟踪方法用于匹配模板和搜索框特征的互相关操作是一个局部线性匹配过程,容易导致语义信息的丢失。最后,手动标记大量的遥感视频的成本太过高昂。因此,本文进行了三项改进以缓解这些问题:(1)针对互相关运算存在缺陷的问题,受注意力机制和Transformer在视觉任务中成功的启发,提出了一种基于协同Transformer的网络Trans VOT。通过模板帧特征和搜索帧特征的协同注意力来学习全局依赖关系,捕获强大的上下文信息,关注最能区分目标的特征,消除对互相关操作的依赖,从而实现更加准确和稳定的目标跟踪。(2)针对遥感视频中判别性特征提取困难以及相似物体干扰的问题,提出了一种完全基于Transformer的跟踪模型Swin VOT。在Trans VOT的基础上通过引入Swin Transformer替换基于卷积神经网络为主干的特征提取网络,并对基于角点检测的边界框预测头进行改进,使注意力机制的优势能够作用于在特征提取阶段。(3)针对遥感视频目标跟踪任务中精确标注的样本少、视频中目标外观随时间变化的问题,提出了一种基于自训练和时空Transformer的目标跟踪方法SS-Swin VOT。SS-Swin VOT通过一个在线更新的记忆模块利用历史帧获取时间信息,并充分利用了Transformer对时间序列建模的优势,使得SS-Swin VOT可以作为遥感视频目标跟踪任务中更高效和鲁棒的基线模型。本文提出的三种方法在吉林1号卫星拍摄的视频数据集和OTB100数据集上与众多主流的基于深度学习和Transformer的跟踪算法进行了对比,实验结果表明本文提出的方法在跟踪精度上与最先进的方法相当,这证明了上述基于时空Transformer的遥感视频目标跟踪算法的有效性。
其他文献
高光谱图像(Hyperspectral Image,HSI)分类是遥感对地观测领域的一个重要的分支,其应用范围较为广泛,因而极具研究价值。由于实际标签样本获取较为困难,一般的基于深度学习的HSI分类算法的性能欠佳,因此小样本问题是HSI分类领域急需解决的难题。高光谱像元包含丰富光谱信息,并且临近像元之间具有很强相关性,因此充分利用像元的光谱信息和周围邻域的空间信息对提高分类性能至关重要。同时,虽然
学位
电子信息产业的迅速崛起促进了基于光电探测器件的光电传感器发展。环境光传感器和接近传感器芯片被广泛应用于消费电子、工业、医疗等设备,提供了诸多智能化控制。然而,随着芯片应用场景的扩大,将环境光传感器和接近传感器集成到一个芯片中以实现芯片面积最小化和功耗最低化的方式成为了环境光传感器和接近传感器的研究热潮。本论文对环境光传感器动态范围、暗电流抑制、红外接近传感器中背景光抑制等关键技术进行研究,基于3.
学位
随着计算机技术和深度学习的飞速发展,视频目标检测技术得到了很大提升。在实际工业应用中我们对模型的轻量化和实用性提出了更高的要求。目前基于深度学习的视频目标检测方法主要使用静态推理方法,不仅降低了模型的表达能力,而且不能满足不同设备对多样性算力的需求。本文主要研究内容是设计基于动态神经网络的视频目标检测网络、高效的动态推断方法和特征融合等,可以实现低能耗的视频目标检测。具体工作如下:(1)提出了基于
学位
语义分割任务一直是国内外众多学者的研究热点,在自动驾驶、智慧安防和新零售等领域具有广阔的应用前景。目前,随着深度学习的广泛应用,基于深度学习的全监督语义分割实现了语义分割性能上的巨大突破,然而这种性能的提升依赖于对大量的训练图像进行逐像素的人工标注,这种昂贵的标注方式无法实现对社交网络中海量图像数据的充分利用。因此,近年来人们逐渐将关注点投入到弱监督语义分割任务中,基于弱监督的语义分割方法仅需要图
学位
高光谱图像包含丰富的空间和光谱信息,在地质、植被生态、农业、海洋等领域得到了越来越多的应用,其中,高光谱图像分类是高光谱应用中一项较为核心的任务。由于深度学习在近些年来的发展,许多使用深度学习技术的分类方法被应用于高光谱图像分类。深度学习往往需要大量的训练样本来拟合模型,然而,高光谱数据的获取和标注往往比较耗时耗力,另外高光谱图像大量的波段引发的维数灾难问题更加剧了这一问题。因此,探究一类针对样本
学位
医学图像配准是医学影像处理中的重要环节,其通过构建不同图像在对应组织结构上的空间一致性,在精准医疗等临床应用中有着重要地位。由于传统配准方法已无法适应日趋复杂的图像数据以及更高效的诊疗速度要求,基于深度学习的医学图像配准方法应运而生。但这类方法预测的变形场往往具有折叠、体素漂移、非光滑等问题,且可训练参数随着网络复杂度呈指数增长。鉴于偏微分方程(Partial Differential Equat
学位
本文研究基于卷积神经网络的传统中医舌象诊断算法。论文使用目标检测、语义分割和图像识别卷积神经网络相结合的方式,实现将中医舌象诊断结构化和客观化。论文首先着手研究中医舌象诊疗理论,学习舌诊相关知识,掌握舌象诊断方法,为之后舌象诊断标准化打下基础。本文依照中医理论将舌象划分出舌色与舌质两个方向。从舌色角度出发,将舌色归类出青紫舌、绛红舌、淡红舌和淡白舌。从舌质角度出发,将舌质归类出裂纹苔、芒刺苔、滑腻
学位
随着集成电路和微机电系统的不断发展,低功耗电子器件逐渐得到了广泛的应用。传统的为低功耗电子器件供电的方式是采用化学电池,但是化学电池存在使用寿命有限、维修成本高及环境污染大的问题。收集环境中可再生能源的能量收集技术则成为化学电池的一种有效的替代品。环境中的超低频(<5 Hz)机械运动中蕴含的能量由于其存在广泛而受到研究者的关注。然而,传统的收集机械能的振动式、摆动式和旋转式俘能器因其输出性能较差及
学位
随着计算机视觉领域的发展,一系列依赖于计算机视觉的应用场景和解决方案纷纷涌现,如自动驾驶、智慧安防等等。这些智能应用技术都离不开计算机视觉中的目标检测这个关键任务。目标检测任务根据输入信息源可以分为多类,本文旨在研究二维图像中的目标检测。该任务可以描述为给定二维图像,输出其中存在的已知类别的目标实例的类别及位置。现有的代表性目标检测方法大都仅仅依靠目标区域的局部特征独立地对每个候选目标进行检测。这
学位
行人检测作为一种计算机视觉任务,能够及时对成像设备产生的图像进行分析处理,为针对行人的后续任务做出保障。由于其在无人驾驶,安全等方面具有重大意义,因此受到了广泛的研究与应用。传统的行人检测方法往往基于单模态的输入数据,如可见光图像,红外图像等。然而单模态数据在特定条件下常常存在缺陷,在处理复杂环境条件下的行人目标时,往往无法获取明确的行人信息,从而使得基于单一模态的行人检测存在较高的漏检以及虚警率
学位