论文部分内容阅读
基于跨视角匹配的图像地理位置定位任务是将待查询的地面视角图像与参考数据集里带有GPS标记的航拍(卫星)图像进行比对,从而确定待查询的地面视角图像的地理位置(GPS坐标)。然而,由于地面和卫星图像视角的剧烈变化,导致地面和卫星图像间的视觉内容差异巨大,这也使得跨视角图像匹配具有较大的挑战性。本文通过对当前研究的跨视角图像匹配问题的几个研究热点方向进行研究总结,从跨视角图像的表征、距离度量和视角转换等多个角度入手,主要研究工作如下:1)基于表征学习的跨视角图像地理位置定位算法本文提出了一种用于解决跨视角图像地理定位问题的端到端网络,即GeoNet。该网络通过融合多个卷积层和胶囊层来捕获特征表示及其关系,从而进一步对空间特征层次进行建模,增强表征能力。此外,本文还提出了一种简单有效的基于在线批量的难样本挖掘的加权软边界损失函数(weighted soft-margin triplet loss with batch hard-mining),它不仅避免了使用三元组损失函数(triple loss)和四元组损失函数(quadruple loss)时边界(margin)参数的选择,而且提高了图像检索的准确率。在两个公开的图像地理定位数据集CVUSA和Vo and Hay上进行的大量实验表明,本文提出的GeoNet在跨视角图像地理定位方面的性能显著优于当前最先进的方法。同时该网络在小样本学习、编码长度和存储空间效率等方面也优于其他方法。2)基于视角转换的跨视角图像地理位置定位算法另外,本文提出另一种多阶段学习算法去解决跨视角(即地面和航拍图)图像地理定位问题。即先将地面视角的查询图像转换为航拍视角图像,然后在航拍视角下进行相似度学习。本文首先使用并改进了Pix2Pix-Gan网络,实现了航拍(卫星)图像到地面图像之间的转换,通过生成对抗网络(GAN)将地面视角的查询图像转换到航拍视角,使得查询图像和参考数据集图像同属一个视角。将跨视角问题转换为同一视角问题,从而减少了跨视角匹配的复杂度。然后,本文设计了Siamese架构双分支网络,并采用了加权软边界三元组损失函数进行相似度度量,使相同地理位置的图像对距离相互靠近,不同地理位置的图像对相互远离。在上述两个公开数据集上的实验证明了本文方法的有效性和先进性。