论文部分内容阅读
近年来计算机硬件水平不断提升,有力的推动了深度学习的发展。卷积神经网络在大尺度图像分类任务中取得突破性进展后,大量学者投身相关研究工作。在计算机视觉任务中,卷积神经网络的应用越来越广泛,同时需要处理的图像也从大尺度逐步趋于细粒度,甚至是超粒度。然而那些在大尺度图像分类任务中表现优异的网络模型,在细粒度图像分类任务中表现的有些差强人意。主要原因在于,细粒度图像中的物体隶属于同一大类,具有较大程度的相似性,卷积神经网络难以较好的提取出具有判别性的精细化特征。故而,本文以大尺度图像分类中性能较好的残差系列网络为基础网络,围绕如何提升其在细粒度图像分类任务中的精度展开相关研究工作,以下是取得的主要进展和成果。(1)针对深度卷积神经网络难以从细粒度图像大量的特征中提取那少量具有判别性的特征的问题,提出了深度关注网络的细粒度图像分类方法。将自然语言处理领域的注意力机制充分应用到细粒度图像分类任务中。通过对卷积层输出特征的结构进行分析,分别从卷积层输出特征的通道维度和空间维度,两个层面应用注意力机制,设计了空间关注模块、通道关注模块和混合关注模块。此外,以ResNext50为例,在其残差结构单元中分别嵌入这三种关注模块,从而构建出三种不同的深度关注网络,并在Stanford Dogs、CUB200-2011和Stanford Cars细粒度图像公开数据集上进行实验。实验结果表明:在ResNext50残差结构单元中嵌入通道关注模块或者空间关注模块,均可以较大幅度提升网络的细粒度图像分类性能;嵌入混合关注模块,可以更大幅度提升网络的细粒度图像分类性能。(2)为进一步提升细粒度图像分类精度,以深度关注网络方法中性能最好的深度混合关注网络为基础,提出了递归深度混合关注网络的细粒度图像分类方法。通过对深度卷积特征进行可视化分析,明确图像中目标位置和深度卷积特征空间响应之间的正相关关系;然后依据此关系提出一种图像关键区域的定位方法,并采用RA-CNN算法公开源码中的网络结构,实现网络对原图像关键区域的自动定位、以及裁剪放大功能;最后参考RA-CNN算法,实现本文的双路深度混合关注网络的网络递归。并在Stanford Dogs、CUB200-2011和Stanford Cars数据集上进行实验,分别得到了87.1%、84.9%、92.4%的测试集精度,高于目前的FCAN、HIHCA等算法。实验结果表明:本文的递归深度混合关注网络方法是一种性能优良的基于弱监督信息的细粒度图像分类方法。