论文部分内容阅读
当前,视觉地点识别在多种新兴科技领域中拥有重要的应用前景和科研价值,并成为模式识别中的热点话题。对于视觉地点识别而言,提升性能的一个关键问题是设计分辨能力更强同时对各种视觉变换更鲁棒的图像特征表示方法,然而囿于地点的复杂性和多样性以及其面向的繁多的应用背景,现存的方法并不能完全满足当下的现实需求,还亟待进一步的研究和探索。本文基于深度学习方法对两种视觉地点识别中的难点问题展开了探讨和研究,主要完成的工作如下:在广泛阅读了国内外视觉地点识别及相关领域文献的基础上,对本文关注的两种视觉地点识别任务——视觉闭环检测、跨视角(Cross-View)图像地点识别系统中的现有方法进行了综述,并探讨和总结了现有方法取得的重要成果以及有待进一步探究的方向,为提出本文中的创新性方法奠定基础。针对视觉闭环检测任务,本文提出一种基于Squeeze-and-Excitation增强结构与并行多路径汇聚补偿策略的CNN模型(Hybrid-CNN)用于获取改进的CNN特征图;同时设计了一种基于沿通道降采样和非重叠池化的CNN特征图降维策略以加速特征相似度比对。利用经典的残差网络作为基模型,对“瓶颈”残差构建块应用上述两种增强策略进行针对性改造,得到Hybrid-CNN模型。对模型提取的CNN特征图应用所设计的方法进行降维,并利用降维后的特征进行闭环检测。通过在主流的公开数据集上进行测试,与现有的多种闭环检测方法进行比较验证了方法的准确率,并说明了降维后的特征能够在准确率无明显损失的情况下显著提升方法的效率。针对跨视角图像地点识别任务,本文提出一种基于Siam-FCAMNet特征提取模型与样本赋权Triplet损失的方法。首先考虑了关注机制对CNN特征的分辨力补偿作用,提出一种基于特征通道与空间信息上下文关注机制的轻量级关注模块(Mul-FCAM)对基模型ResNet进行改造,得到ResFCAMNet模型。利用两个参数不共享的ResFCAMNet分别作为地面视角图像、航拍图像的特征提取器,组成孪生结构的CNN模型,并融入一种可学习方向回归分支构建出Siam-FCAMNet模型,用以生成最终应用于该任务的增强后的CNN特征。同时,本文提出一种基于样本赋权实现在线困难数据挖掘的三元组(Triplet)损失函数,旨在“强调”有效困难样本对模型训练的积极作用,并抑制简单样本在参数更新时对有效困难数据的“稀释效应”,以进一步改善特征的分辨力。启发于FaceNet中的Semi-Hard策略,设计了一种添加距离修正因子的Logistic回归用以获得三元组样本的匹配概率,并根据匹配概率计算样本对应的自信息量作为权重。同时为了限制极端困难样本和简单样本对网络参数更新的影响,设计了一种上下限截止策略对权值进行调整,得到最终分配给各三元组样本的权值。通过在现有的主流数据集上进行测试并与当前取得先进水平的(State-of-The-Art)方法进行比较,结果显示本文方法实现了突出的性能,相较于现有方法有显著提升,达到当下先进水平。