论文部分内容阅读
图像分类是计算机视觉领域重要的研究方向之一,本论文在现有图像分类方法的基础上,重点研究了卷积神经网络在不同分类任务中应用的问题。首先通过对经典模型的重现以及在不同数据集上的对比实验,总结了如何设计一个优秀的分类模型。然后结合实际数据,提出了三种改进的卷积神经网络分类模型,并在不同的分类任务中取得了较好的结果。本文的主要工作有:第一,借助MXNET深度学习框架,实现了AlexNet、GoogLeNet、ResNet三个模型。并通过在Fashin-MNIST、Cifar-10数据集上对比实验,分析了不同结构模型对分类的影响。总结出了如何从参数、结构上来优化设计模型的方法。第二,提出了一种改进的卷积神经网络模型。针对带高噪声的车牌数字字符数据集,通过在卷积层与激活层之间融合了BatchNorm算法,在全连接层引入了Dropout算法,增加模型的鲁棒性与收敛性。实验结果表明,这种融合能够有效的处理高噪声数据。在未融合这些算法之前,网络完全不收敛;而融合之后,在低噪声、中度噪声、强噪声污染情况下,相比BP、PCA等方法,本文方法在数字字符识别上具有明显的优势,平均识别率高出近5%。尤其在强噪声污染数据下,相比模板匹配等方法识别率高出近20%。第三,针对人脸识别这种需要区分细微差异的分类类型,提出了一种改进的孪生卷积神经网络算法。该结构由两个相同的卷积神经网络组成,共享网络权值。在该结构的训练中采用了差异深度度量学习算法。卷积结构有效的去除外界噪声干扰,且在非线性降维中权值共享结构能够自动提取相同特征,DDML算法增加了提取特征的有效性。在ORL、YaleB和AR人脸数据库上实验结果表明,与PCA、CNN等算法相比,识别稳定度高,识别率提升5%。第四,提出了一种适用于像素级分类的改进的全卷积神经网络模型。该算法能够通过融合不同尺度感受域获取原图信息,并生成低对比度特征图。然后将低对比度特征图映射到高对比度特征图上。最后通过高对比度特征图上的感受域重构出高对比度缺陷图像,并将缺陷筛选出来。在屏幕缺陷检测实验中表明,多尺度模型相比单尺度模型具有更高分类精度。与当前典型算法相比,该方法在缺陷检测精度与速度上具有较好的性能优势。