论文部分内容阅读
现今大数据的时代背景下,随着大量数据集的产生以及计算机算力的迅速发展,深度学习在各个领域逐渐兴起。作为深度学习的主要方法,卷积神经网络在肿瘤识别、车型识别、人脸识别等极具挑战性的视觉任务中已经达到甚至超越了专业人员的水平,逐渐成为图像分类任务的主流方法。虽然深度学习取得了巨大成功,但是由于深度学习模型本身由复杂多层非线性结构组成,并包含数以万计的参数量,导致研究者无法直观理解模型的工作状况以及解释模型的工作原理,并且仅依靠算法设计者自身经验来优化模型结构,无法快速找出问题所在,这无疑已经成为制约卷积神经网络发展的瓶颈。本文从深度学习可解释性角度出发,通过卷积神经网络可视化技术,观察当前主流卷积神经网络ResNet50存在忽略重要上下文信息以及对目标次级特征区域关注不足的问题,针对这些问题本文提出了一种新颖的卷积神经网络模型架构,性能优于当前主流CNN模型;并在此基础上,提出了一种参数减半,性能更优的升级版本;在探索卷积神经网络模型结构的过程中巧妙的将一些先进的训练策略结合在一起进行消融实验,总结了一系列通用的训练方法,提升了卷积神经网络在图像分类任务中的性能。本文的主要工作如下:(1)对一系列先进的训练策略进行消融实验。实验证明,在不改变模型并且计算量没有明显增加的前提下,调整到最优的批尺寸值后,使用学习率策略Cosine或HTD以及对抗思想的数据增强策略Cutout、Mixup等方法可以显著提高大部分CNN的性能,并且将它们组合在一起可以进一步提高模型的准确性。例如,使用整套训练策略可以使VGG19、ResNet110在CIFAR100数据集上准确率分别提升3.09%、4.88%。(2)针对当前主流模型存在忽略重要上下文信息以及对目标次级特征区域关注不足的问题,提出了联合分组卷积和空洞分组卷积的多尺度特征融合的残差网络模型MSResNet。该模型使用了残差结构解决了网络加深时的退化问题,同时通过融合分组卷积与空洞分组卷积的多尺度特征强化模型的感受野,进而获取了更多的上下文信息并提升了网络性能,并且通过结合Cutout、Mixup两种对抗思想的数据增强策略,增强了模型对次级特征区域的捕获能力。通过实验验证,MSResNet在CIFAR-10、CIFAR-100数据集上的精确度分别达到了96.84%、84.42%,超越了VGG、ResNet、DenseNet、ResNext等先进的图像分类模型。并通过类激活图对比可以发现MSResNet解决了当前模型忽略重要上下文信息和次级特征区域关注不足的问题。(3)虽然MSResNet在图像分类任务中的性能强大,同时也带来了参数较多的问题。所以本文在此基础上提出了一种基于通道注意力机制和多尺度融合的残差网络CA-MSResNet,并提出了一种新的通道注意力架构CA模块,抑制了非分类类别像素。实验证明CA-MSResNet不仅参数量基本等于MSResNet的一半,解决了MSResNet参数量较大的问题,而且CA-MSResNet在CIFAR10和CIFAR100数据集上准确度相较于MSResNet分别提升了0.2%和0.49%。并且通过类激活图观察可以发现,CA-MSResNet相较于MSResNet对目标主体激活更加充分。