论文部分内容阅读
地面目标是地表信息的重要组成之一,对民生和军事领域都非常重要。然而,由于单一传感器的信息有限,基于单源影像的地面目标解译在许多应用中效果不佳。由于无人机多源影像可以反映地面目标在多个传感器中的信息,因此,基于无人机多源遥感影像的地面目标解译受到了越来越多的关注。然而,由于多源影像间的偏差,同一地物在不同影像中位于不同的位置,这使得原始多源影像难以直接用于地面目标解译。基于无人机多源影像的地面目标解译的重要前提是多源影像的配准。影像配准用于消除影像间的偏差,是后续目标解译的基础。因此,本文首先研究多源影像的配准方法,并基于配准结果,在两个应用场景进行实例研究,分析多源影像对地面目标解译结果的影响。本文开展的研究工作如下:(1)针对弱纹理无人机多光谱遥感影像,提出了基于深度学习的无监督配准方法。无人机多光谱影像的自动配准是后续应用的基础。目前针对弱纹理影像的配准方法依然有很大改进空间。因此,本文首先评估了现有方法的表现,并进一步提出一种基于结构相似性损失的无监督深度学习网络(unsupervised deep learning network based on structural similarity loss,DSIM)。DSIM直接估计单应性矩阵的8个参数,并基于影像间的金字塔相似度损失来无监督地训练网络。结果表明,CFOG具有最高的正确匹配率,其次是DSIM和SIFT,DSIM在弱纹理影像中比CFOG和SIFT更鲁棒。此外,由于CFOG和SIFT的性能与找到的匹配点的数量相关,本文进一步提出了一种多方法集成策略,根据匹配点的数量将DSIM、CFOG和SIFT集成。该策略取得最佳配准效果,正确匹配率达到96.2%,优于其它方法。(2)针对无人机双目相机的热红外与可见光(thermal infrared and visible,TIR&V)遥感影像,提出了高精度配准方法。TIR&V影像的自动配准有助于反射与发射波段影像的协同使用。然而,由于TIR&V影像间的显著差异,现有方法配准效果不佳。为实现无人机双目相机TIR&V影像的高精度配准,本文提出一种将带权重的模板匹配、多级最大值聚合和最大值索引回溯相结合的方法(combination of Template matching with Weights,Multilevel local max-pooling and Max indices backtracking,TWMM)。TWMM包括4步:使用模板匹配计算原子块的相似度图;使用多级局部最大值池化构建金字塔相似度图;使用最大值索引回溯推导对应点;单应性矩阵估算。本文使用多个场景的TIR&V影像来评估各个方法。结果表明,TWMM表现最佳,对应点正确率和正确匹配率为86.0%和96.0%,较现有最优方法分别提高了15.1%和11.6%。对于弱光影像,TWMM也有很好的鲁棒性。(3)针对土地覆盖分类中大棚提取的不足,提出了基于无人机多光谱影像的多任务大棚提取网络和大图解译方法。土地覆盖分类应用广泛。无人机单通道影像信息单一,解译效果不佳。多光谱影像包含了地物在不同波段的信息。然而,多光谱影像间存在偏差,导致未配准的多光谱影像无法直接使用。因此,本文利用上述多方法集成策略来配准多光谱影像,并基于已配准影像,以土地覆盖分类中的大棚分割为例,提出一种基于深度学习的多任务大棚提取网络(Multi Task Greenhouse Extraction Network,MTGEN)。MTGEN设计了针对性的损失函数以强化网络对大棚形状的学习。结果表明,5通道的多光谱影像,其效果远优于单通道影像和可见光影像,F1分别提升25.1%和3.6%。此外,针对无人机单张影像的覆盖范围有限的问题,本文进一步提出一种基于Pix4D拼接小图概率的大图解译方法(Large image Interpretation method based on Small image interpretation and Pix4D,LISP)。LISP方法首先利用MTGEN得到小图影像中各个像元为大棚的概率后,然后利用Pix4D拼接小图概率,从而得到大图影像解译结果。相对于切分组合法,LISP的F1提升了3.3%,且有效避免了解译结果中的拼接痕迹。(4)针对仅基于无人机可见光或热红外影像的行人检测的不足,提出了基于双源影像特征融合的行人检测方法。基于无人机遥感的行人检测应用广泛。可见光影像易受光照影响,在弱光下噪声大。热红外影像表征物体温度,与可见光影像的信息互补。然而,大部分无人机TIR&V影像间存在偏差,同一行人在TIR&V影像中的位置不同,这导致未配准的TIR&V影像无法用于行人检测。受制于已配准的TIR&V影像不足的问题,目前基于无人机TIR&V影像的行人检测研究仍然很少。本文首先利用TWMM方法来配准TIR&V影像,然后基于已配准影像,提出一种基于特征融合的多源行人检测网络(Multi-source Pedestrian Detection based on Feature Fusion,MPDFF)。MPDFF设计了特征融合单元以同时利用TIR&V影像的信息。此外,为了减轻TIR&V影像数量少的影响,MPDFF改进了训练方法以引入了额外的单源数据集。实验结果表明,相对于仅使用可见光或热红外影像,MPDFF的效果更好,F1分别提升了14.6%和7.6%,且MPDFF在白天阴影场景或地面高温场景下的表现相比单源影像的优势很大。与现有的影像叠加方法和检测结果融合方法相比,基于特征融合的MPDFF的F1分别提升了11.3%和8.1%。此外,引入额外的数据集在一定程度上缓解了无人机多源影像采集难度大的问题,使得MPDFF的F1提升了3.8%。