论文部分内容阅读
细粒度图像分类问题主要是针对同属一大类的图像进行更细致的子类划分,比普通的图像分类问题更具挑战性。由于细粒度图像类间差异较小,而同类别内的图像差别较大,解决该问题的关键主要在于捕获图像中细微的局部差异,学习图像中最具有判别力的特征。因此,本文针对细粒度图像特征融合及图像的显著性两方面进行了研究,提出了基于深度特征融合和显著区域重采样的双线性卷积神经网络模型,并在细粒度图像分类任务中予以应用。
本文具体的研究工作有如下两点:
(1)针对双线性网络特征融合层次不够深入的问题,构建了一个基于特征间深度交互的端到端网络模型DFI-BCNN(Depth Feature Interactive Bilinear Convolution Neural Network Model)。该模型只需要提供图像的弱监督信息即可进行训练,完成细粒度图像分类的任务。DFI-BCNN在双线性网络的基础上进行了两方面的改进:第一方面,对不同卷积层之间的特征进行深层次融合,增加卷积层5-1和卷积层4-1对最后一层网络层输出特征的双线性操作,融合了浅层特征中的获取到的空间信息以及深层特征中的学习到的语义信息;另一方面,对于双线性操作带来的高维参数,本文加入了随机麦克劳林、张量速写两种算法,通过引入二阶多项式核来找到特征的近似低维映射,使计算复杂度得以降低,提高了模型的效率。通过在三个数据集上进行的实验表明,DFI-BCNN方法提高了分类准确率,且随着特征融合的深入,分类精度持续提高,从而证明了该方法的有效性。
(2)为了使模型能更关注到图像中最重要的区域,学习到更具有辨别力的特征,本文提出了一种基于显著区域的重采样方法。该方法具有较强的泛化性,可以嵌入到分类网络中。该方法先分析处理原始图像的热度图,再对图像中的显著区域进行重采样操作,从而得到基于显著区域的重采样图像。整体模型由三部分组成,分别是显著图的生成、非均匀重采样和细粒度网络分类。首先对原图采用Grad-CAM方法得到热度图,并对热度图进行二值化处理得到显著区域图像;然后通过采样器根据高斯核函数学习不同区域的权重,对显著图像进行重采样变形操作并映射到原图,使得显著区域占据整幅图像的更大比例;最后将重采样后得到的图像送入DFI-BCNN完成细粒度分类任务。实验表明与其它细粒度分类算法相比,本文提出的方法能够学习到更细致的图像特征,得到了较高的分类准确率。
本文具体的研究工作有如下两点:
(1)针对双线性网络特征融合层次不够深入的问题,构建了一个基于特征间深度交互的端到端网络模型DFI-BCNN(Depth Feature Interactive Bilinear Convolution Neural Network Model)。该模型只需要提供图像的弱监督信息即可进行训练,完成细粒度图像分类的任务。DFI-BCNN在双线性网络的基础上进行了两方面的改进:第一方面,对不同卷积层之间的特征进行深层次融合,增加卷积层5-1和卷积层4-1对最后一层网络层输出特征的双线性操作,融合了浅层特征中的获取到的空间信息以及深层特征中的学习到的语义信息;另一方面,对于双线性操作带来的高维参数,本文加入了随机麦克劳林、张量速写两种算法,通过引入二阶多项式核来找到特征的近似低维映射,使计算复杂度得以降低,提高了模型的效率。通过在三个数据集上进行的实验表明,DFI-BCNN方法提高了分类准确率,且随着特征融合的深入,分类精度持续提高,从而证明了该方法的有效性。
(2)为了使模型能更关注到图像中最重要的区域,学习到更具有辨别力的特征,本文提出了一种基于显著区域的重采样方法。该方法具有较强的泛化性,可以嵌入到分类网络中。该方法先分析处理原始图像的热度图,再对图像中的显著区域进行重采样操作,从而得到基于显著区域的重采样图像。整体模型由三部分组成,分别是显著图的生成、非均匀重采样和细粒度网络分类。首先对原图采用Grad-CAM方法得到热度图,并对热度图进行二值化处理得到显著区域图像;然后通过采样器根据高斯核函数学习不同区域的权重,对显著图像进行重采样变形操作并映射到原图,使得显著区域占据整幅图像的更大比例;最后将重采样后得到的图像送入DFI-BCNN完成细粒度分类任务。实验表明与其它细粒度分类算法相比,本文提出的方法能够学习到更细致的图像特征,得到了较高的分类准确率。