论文部分内容阅读
细粒度图像识别是计算机视觉领域中一项颇具挑战性的研究课题,目的是区分同一大类下各个不同的子类。与跨物种的粗粒度图像识别任务相比,细粒度图像数据集内不同种类的目标外观相似程度较高,而同一种类的目标由于姿势、视角和光照等因素导致视觉差异显著,因此使用普通的深度学习图像识别技术难以精准地判断细粒度目标类别。强监督细粒度识别算法借助目标边界框或部位标注点等额外的监督信息构建检测模型,从而对图像判别性区域进行定位,促使识别精度显著提升。然而,这种手工标注的监督信息获取代价高昂,致使这项技术无法应用于大规模真实场景。与此同时,弱监督细粒度识别算法仅利用图像级标签即可较为准确地完成图像分类任务,引起学术界与工业界的广泛关注。本文从基于弱监督信息的细粒度图像识别问题出发,针对现有技术的弊端与缺陷,设计出三种优化网络结构,具体内容如下:
1. 针对双线性细粒度识别模型Bilinear CNN中局部小尺度细节信息丢失和特征表达能力不足的问题,提出一种交叉多流融合多尺度特征的混合阶卷积神经网络。该网络首先依据深度神经网络特征金字塔结构,采用多尺度特征融合策略将同一基础网络中不同卷积层的输出特征进行合并,之后通过混合阶池化操作汇聚原始卷积特征的一阶和二阶统计信息,增强特征学习能力,最后利用建立在三路非对称基础网络之上的交叉多流网络框架进一步组合特征多样性。实验结果表明,与现有算法相比,交叉多流融合多尺度特征的混合阶卷积神经网络在CUB-200-2011、FGVC Aircraft和Stanford Cars细粒度图像数据集上识别准确率有所提升,达到行业领先水平。
2. 针对双线性细粒度识别模型Bilinear CNN中图像特征描述向量维度过高引发的模型参数量与计算量增加的问题,设计出一种适用于真实场景的跨层特征交互的轻量级卷积神经网络。该网络利用多层聚合分组卷积运算代替常规卷积构建出一种新型残差模块,并将其直接嵌入深度残差网络框架,从而减少基础网络的存储空间和计算成本。此外,该网络结合张量分解思想推导出一种计算高效的新型池化方案,能够有效压缩图像特征描述向量维度,进而缩减全连接层权重参数矩阵的尺寸。最后,该网络通过跨层特征交互网络框架汇集各特征层之间的交互信息,增强网络的特征学习与表达能力。实验结果表明,在未牺牲识别准确率的情况下,基于跨层特征交互的轻量级卷积神经网络的参数量和计算量显著降低,能够满足实时性识别任务要求,在识别准确率、计算复杂度和技术可行性三个方面获得更优的平衡。
3. 针对多数弱监督细粒度识别算法割裂判别性区域定位与细粒度特征学习之间的联系导致后续发展受限的问题,构建出一种包含student-model、teacher-model和classification-model模块的基于自注意力机制的循环卷积神经网络。该网络结合区域建议网络的锚框思想与基于排序学习算法的Teacher-Student循环反馈机制搭建出自注意力区域推荐网络,能够在仅使用图像级标签的情况下较为准确地检测细粒度图像判别性区域并提取对应特征信息。此外,在多任务联合学习过程中,该网络通过参数硬共享机制降低过拟合风险,并采用动态权重分配机制根据每一子任务自身损失函数变化情况自适应地调整其权重系数,减少人为设定超参数量,促使权重分配更加合理。实验结果表明,基于自注意力机制的循环卷积神经网络通过相互增强、彼此促进的方式加深判别性区域定位和细粒度特征学习间的关联,使得网络具备自主检测目标及局部关键部位的能力,从而降低图像背景干扰,在CUB-200-2011、FGVC Aircraft和Stanford Cars细粒度图像识别任务中表现优异,同时整体网络通过端到端的单阶段训练方式即可完成优化,极大地减轻设计负担。
1. 针对双线性细粒度识别模型Bilinear CNN中局部小尺度细节信息丢失和特征表达能力不足的问题,提出一种交叉多流融合多尺度特征的混合阶卷积神经网络。该网络首先依据深度神经网络特征金字塔结构,采用多尺度特征融合策略将同一基础网络中不同卷积层的输出特征进行合并,之后通过混合阶池化操作汇聚原始卷积特征的一阶和二阶统计信息,增强特征学习能力,最后利用建立在三路非对称基础网络之上的交叉多流网络框架进一步组合特征多样性。实验结果表明,与现有算法相比,交叉多流融合多尺度特征的混合阶卷积神经网络在CUB-200-2011、FGVC Aircraft和Stanford Cars细粒度图像数据集上识别准确率有所提升,达到行业领先水平。
2. 针对双线性细粒度识别模型Bilinear CNN中图像特征描述向量维度过高引发的模型参数量与计算量增加的问题,设计出一种适用于真实场景的跨层特征交互的轻量级卷积神经网络。该网络利用多层聚合分组卷积运算代替常规卷积构建出一种新型残差模块,并将其直接嵌入深度残差网络框架,从而减少基础网络的存储空间和计算成本。此外,该网络结合张量分解思想推导出一种计算高效的新型池化方案,能够有效压缩图像特征描述向量维度,进而缩减全连接层权重参数矩阵的尺寸。最后,该网络通过跨层特征交互网络框架汇集各特征层之间的交互信息,增强网络的特征学习与表达能力。实验结果表明,在未牺牲识别准确率的情况下,基于跨层特征交互的轻量级卷积神经网络的参数量和计算量显著降低,能够满足实时性识别任务要求,在识别准确率、计算复杂度和技术可行性三个方面获得更优的平衡。
3. 针对多数弱监督细粒度识别算法割裂判别性区域定位与细粒度特征学习之间的联系导致后续发展受限的问题,构建出一种包含student-model、teacher-model和classification-model模块的基于自注意力机制的循环卷积神经网络。该网络结合区域建议网络的锚框思想与基于排序学习算法的Teacher-Student循环反馈机制搭建出自注意力区域推荐网络,能够在仅使用图像级标签的情况下较为准确地检测细粒度图像判别性区域并提取对应特征信息。此外,在多任务联合学习过程中,该网络通过参数硬共享机制降低过拟合风险,并采用动态权重分配机制根据每一子任务自身损失函数变化情况自适应地调整其权重系数,减少人为设定超参数量,促使权重分配更加合理。实验结果表明,基于自注意力机制的循环卷积神经网络通过相互增强、彼此促进的方式加深判别性区域定位和细粒度特征学习间的关联,使得网络具备自主检测目标及局部关键部位的能力,从而降低图像背景干扰,在CUB-200-2011、FGVC Aircraft和Stanford Cars细粒度图像识别任务中表现优异,同时整体网络通过端到端的单阶段训练方式即可完成优化,极大地减轻设计负担。