论文部分内容阅读
随着大规模数据集、专业化的硬件、新的算法的出现,深度学习,特别是深度卷积神经网络在图像识别领域达到了接近人类水平的语义分类能力。在深度学习的背景下,场景识别旨在推理出给定图像中物体所在的场景或地点,通过在场景数据集上训练卷积神经网络以学习场景图像的表示模式进而从语义层面上对图像进行高度准确的概括。应用深度学习进行场景识别时主要存在三个问题:一是网络在场景识别上的准确率不及图像分类等其它视觉任务;二是网络受限于训练数据的空间表示重心,忽略了场景中的上下文信息;三是网络通过增加容量提高的准确率并没有随着网络容量增加而线性增加。本文是以基于深度学习的场景识别算法为研究课题,重点研究了网络轻量化和物体语义特征对场景识别的影响,主要研究内容分为三部分。本文首先对几种经典的卷积神经网络在网络参数量、模型大小、网络深度、识别准确率等方面进行了分析和比较,提出了网络轻量化的改进方案。通过使用通道分离卷积替代标准卷积以及对网络内部的重新调整,在地点20-RGB场景数据集上评估了方案的有效性。实验结果验证了网络轻量化在显著减少场景识别网络的参数量的同时提高了场景的识别准确率。然后本文从另一个角度研究了语义数据集对场景识别的影响。利用语义分割网络对彩色RGB图像的像素级分类能力,对地点20-RGB场景数据集应用语义分割得到对应的地点20-语义数据集。使用语义关系提取网络在该数据集上训练用于场景识别。实验结果显示单独使用基于语义数据集训练的网络在场景识别上的准确率明显低于基于彩色RGB图像训练的网络,但语义数据集能提供一种互补的物体语义信息作为场景识别的额外特征。本文最后研究了一种多模态深度学习架构,该架构使用双支网络同时结合RGB分支和语义分支分别提取场景的图像信息和物体上下文信息。利用在训练过程中形成的注意力机制,加强相关上下文信息的学习。基于该多模态深度学习架构,本文提出一种扩增其注意力范围的方法。该方法通过改进现有架构中的语义分支注意力模块,利用提供的空间和通道关系引导网络的注意力,加强了语义特征源注意力的形成。在与轻量化改进结合后形成基于语义注意力的双支多模场景识别网络,进一步完善了场景识别的特征表示。实验结果显示,该网络在地点20-RGB场景数据集上实现了较好的识别准确率。