论文部分内容阅读
随着遥感技术的快速发展,遥感数据的获取变得越来越容易,并且这些遥感数据质量也在不断提高,那么如何有效地利用这些包含丰富信息的遥感数据,则是一个非常值得研究的问题。一幅遥感图像的视觉信息可以大致的反映该图片的主要内容,而该图像相对应的文本信息则可以更加细致地描述图像的地物细节,因此如何将这两种信息结合起来,从而更加充分地利用高质量的遥感数据,实现对高分遥感图像在语意层次上的理解,是一个亟待解决的问题。目前对高分遥感影像的研究往往只是利用到了图像的视觉信息和少量语义信息,如:目标检测、图像分类、图像分割、场景分类等工作。而这些研究往往只能检测出图像中包含的某种目标、或者取得图像各像素或整个图像的类别标签,然而并未充分利用图像的信息,不能详细地指出图片中目标的属性、特征以及目标之间的相互关系,这样就没有完全地在语义层面上理解图像,没有充分利用遥感数据。而目前在遥感领域,对高分遥感影像语义理解问题的研究仍然是空白状态。另外,当前在高分遥感领域,同时包含高分遥感影像及其对应文本描述的数据库并不存在,这为实现高分遥感影像的语义理解造成很大的困扰。针对上面的两个问题,本文首先基于UCM数据库和Sydney数据库这两个具有代表性的高分遥感影像数据库,构建了高分遥感影像-文本数据库,将高分影像视觉信息和语义信息进行结合。这样就可以更加充分的利用我们获取到的高分遥感数据,使其在灾害监测、城市规划、军事侦察等领域发挥更大的作用,这是本论文主要的研究目标之一。然后本文提出了一个基于深度学习的多模态神经网络模型,采用卷积神经网络(Convolutional Neural Network,CNN)提取图像的视觉信息,循环神经网络(Recurrent Neural Network,RNN)结合图像的文本信息,并将这两种网络进行有机融合,构建出深度的多模态神经网络模型,从而实现在高层语义层面对遥感图像的理解。在最后的实验中,本文在构建的两个高分遥感影像-文本描述数据库上,比较了不同类型的CNN与RNN相结合的效果,从定性和定量两个方面证明了我们方法的有效性。