论文部分内容阅读
图像识别技术是模式识别领域的研究热点之一,其任务是利用在训练集上学习到的预测模型来判断给定图像的类别或属性。近年来,随着计算机技术的发展,利用卷积神经网络(Convolution Neural Network,CNN)技术来学习预测模型的方法已成为了图像识别领域的主流。支持向量机(Support Vector Machines,SVM)驱动的CNN模型中采用基于大间隔思想的SVM作为能量函数来指导CNN的学习,相比于使用Softmax损失的传统CNN模型,具有更强的泛化性能。然而,该算法忽视了特征空间中包含所有样本的最小包含球(Minimum Enclosing Ball,MEB)的半径对SVM泛化误差上界的影响,这极大的限制了其泛化性能的进一步提高。此外,该算法没有考虑到总体样本的分布信息,使得其难以指导CNN提取到更优质的图像特征。针对如上的两个不足,本文主要做了如下研究:(1)在深度模型的训练过程中CNN提取到的特征空间是在不断变化的,此时SVM的泛化误差上界不仅取决于不同类之间的分类间隔,还与特征空间中不断变化的MEB的半径有关。针对这一事实,采用基于SVM泛化误差界的策略来指导CNN深度模型的学习和相应分类器的构建,进而提出了一种半径间隔界(Radius Margin Bound,RMB)驱动的CNN模型。与传统的CNN模型相比,所提模型能够在增大不同类别的图像特征间的分类间隔的同时,尽可能的限制MEB半径的增加,最终驱动CNN提取到质量更高的图像特征。(2)SVM在构建分类超平面是仅利用了少量的支持向量点,没有考虑到总体样本的分布信息,而SVM驱动的CNN将不可避免的继承这一不足。针对这一问题,采用结合了Fisher线性判别理论的最小类内方差支持向量机(Minimum Class Variance Support Vector Machines,MCVSVM)来指导CNN深度模型的学习,进而提出了一种MCVSVM驱动的CNN模型。所提模型在训练时不仅关注了类别之间的间隔,还能够充分利用样本的分布来对分类超平面进行微调,进而获得比SVM驱动的CNN模型更优的分类超平面来指导CNN的学习,最终驱动CNN提取到鉴别性更强的图像特征。为了验证所提两种算法的有效性,使用了AlexNet,VGGNet,以及ResNet这三种具有代表性的深度卷积网络结构,在FER2013,MNIST,SVHN,CIFAR-10和CIFAR-100这五个大规模数据集上,分别比较了所提的两种算法与Softmax驱动的CNN,SVM驱动的CNN以及中心损失的CNN的特征可视化结果以及识别准确率,并分析了参数对模型性能的影响。实验结果表明,所提算法具有比竞争算法更强的特征表达能力和更高的识别准确率。