论文部分内容阅读
图像分类是对于给定的图像,在一组类别中找到与其相符的类别的过程。图像分类是计算机视觉中的重要研究方向,也是很多其它视觉任务的基础。近年来,随着深度学习的应用,图像分类研究获得了快速发展,诞生了一系列经典模型。但包括细粒度图像分类和室内场景分类在内的一些问题,仍是图像分类中的难点,这些问题具有类间差异小、类内差异大、图像主体物体不突出等特点。视觉注意力机制可用于关注图像中的重点区域,在上述任务的研究中得到了广泛的应用。不过,目前视觉注意力在图像分类中的应用具有一些限制与不足之处,包括注意力权重维度单一或较少,提供的注意力信息有限;注意力作用于特征的方式较为直接;使用硬性注意力,难以端对端训练等。本文针对这些问题,面向细粒度图像分类和室内场景分类等图像分类难点任务,提出了一系列基于多通道视觉注意力的可端对端训练的深度图像分类模型,并做了相应的分析。具体研究内容包括以下几点:首先,本文提出并实现了一种利用卷积层激活输出获取多通道注意力的图像分类模型。这一方法中提出了多通道的注意力结构,多通道的注意力权重图在归一化的图像特征的基础上经卷积等操作得到。对于注意力融合部分,提出了减去注意力对应的特征均值的融合方法,以获得图像特征的高阶信息。在注意力融合后得到图像的高层特征表示向量,可用于分类。这一端对端的图像分类模型在细粒度图像分类和室内场景分类的多个数据集中均取得了超过此前领先方法的优异结果。其次,本文提出并实现了一种利用对图像中部位进行检测获取注意力机制的细粒度图像分类模型。这一方法为了进一步提高模型对图像重点区域的定位能力,利用细粒度图像分类数据集提供的部位标注信息,训练基于全卷积网络的图像检测模块。在检测网络中,输出的特征图对应于图像相应位置的检测结果,同时也作为多通道的注意力权重。这一多通道注意力权重可与图像低层特征融合用于得到图像类别,构成端对端细粒度图像分类模型。在实验中,基于部位检测的注意力机制模型的分类性能获得了进一步提升,同时也具有良好的部位检测能力。最后,本文提出并实现了一种基于多层次多尺度特征的注意力机制场景图像分类模型。这一模型针对室内场景分类的特点,在注意力机制的框架下,对不同层次和尺度的特征进行利用。在模型中,使用不同数据集中预训练的卷积网络得到不同层次的特征,使用不同尺寸的输人图像得到不同尺度的特征。两组不同层次、不同尺度的特征分别对应于注意力权重和图像低层特征,使用双线性池化进行结合,得到图像的高层表示。实验结果显示,这一方法在室内场景分类任务中分类性能取得了提升。