论文部分内容阅读
场景识别技术作为机器视觉领域中的关键技术之一,已经发展成为深度学习方向的重要研究问题之一,与此同时也是图像识别领域的一个研究技术难点。如果能够有效地提高场景图像的识别率,将极大程度地推动人机交互、视频和图像检索、智能视频监控等领域的发展并且能够带来巨大的经济效益。因此,有效提高场景识别技术具有十分重要的意义和挑战性。场景图像普遍存在照射角度、光照强度、形状改变、部分遮挡和背景混入等情况,导致场景图像呈现类内差异大和类间差异小的特点。近年来,研究者做出了很多努力,来探寻有效的特征表示以提高场景的识别性能。在早期研究中,主要是利用先验知识设计用于提取场景图像的浅层视觉特征。这些浅层特征表示方法能够在早期的简单场景图像数据集上取得令人信服的结果。但是,针对那些更具挑战性的大型的场景识别数据库,则识别效果不佳。近年来,深度学习理论在计算机领域取得了有目共睹的巨大成功,基于深度特征的场景识别方法的性能普遍比基于浅层特征的方法要优越。研究发现场景图像的目标属性有助于提高场景图像的识别率,场景图像的目标语义特征属于高层特征。本人在前人的工作基础上,研究深度特征融合的场景识别算法。本文的主要研究内容如下:(1)在阅览了大量的国内外文献资料的基础上,介绍了场景识别的研究背景与意义,从浅层特征和深层特征两方面分析了场景识别的国内外研究现状,并且介绍了一些目前常用的场景数据集;(2)调研了传统浅层特征提取算法,从全局特征、局部特征和目标属性特征进行对比分析,并详细介绍了这三种特征的典型代表算法。针对Gist算法、SIFT算法和OB算法在OT数据集和MIT67数据集上做了大量的实验,并进行对比分析;(3)提出了一种基于多角度深度特征融合的表示方法,即融合目标语义信息、全局外观信息和外观的上下文特征来进行场景识别的方法。保持空间布局信息的目标语义特征(Spatial-layout-maintained Object Semantics Features,SOSF)作为场景图像的目标语义信息,利用空间Fisher向量(Spatial Fisher Vector,SFV)同时对基于深度学习的多类别目标检测器的输出进行目标类别和布局信息的编码。然后建立了一个多方向的LSTM(Long short-term memory)模型来表示场景图像外观的上下文信息(Contextual Features in Appearance,CFA);以卷积神经网络(Convolutional Neural Network,CNN)的全连接层的输出作为全局外观信息(Globe Appearance Feature,GAF)。最后融合三种深度特征信息,分类识别输出实验结果;(4)最后,在三个基准数据集上进行广泛的实验。该方法分别在MIT67数据集上达到89.51%的识别正确率,在SUN397数据集上达到78.93%的识别率和在Places365数据库上达到57.27%的识别正确率,优于最新报道的深度学习场景识别方法;综上所述,本算法提供了一种具有高精度的场景识别方法,该方法可以归类为多角度学习技术,利用深度特征从不同角度来实现场景分类。具有很高的实用价值和发展前景。