论文部分内容阅读
卷积神经网络用于图像识别分类是深度学习中有关图像处理的一个重要应用,卷积神经网络一个比较显著的优点是能够直接使用图像进行卷积操作,并从图像的像素中提取图像的特征,而且卷积神经网络的权值共享和池化操作大大减少了网络需要训练的参数,从而大大的简化了网络的结构,使网络的训练效率提高了。 然而传统的卷积神经网络只能对灰度图像以及彩色图像通道中的某一个通道进行学习训练,并且只能提取图像的局部特征从而使图像的一些重要信息不可避免的丢失了,然而图像的局部特征和全局特征同样对图像的分类识别起着重要的作用,而深度学习是人工智能领域内发展的重要组成部分,并且深度学习在指纹识别、图像分类识别以及人脸识别等方面都获得了很大的成绩,用传统卷积神经网络不容易解决的物体的检测、物体的跟踪以及车牌自动识别的问题也获得了很大的突破。目前,随着研究人员对深度学习算法的不断研究及优化,传统深度学习的编程算法已经远远满足不了编程人员的需要,因为传统的基本算法的实现都需要研究人员耗费大量的时间以及精力,而同时一些研究人员已经开始追求快速、高效的深度学习算法,从而基于Caffe深度学习框架中的多种深度学习框架便应运而生了,而这些框架不但给研究人员提高了快速、高效的开发模式,而且还提供了多个卷积神经网络的开发模型以使研究人员在比较先进以及完善的模型上进行改进以及研究。 本论文基于深度学习Caffe框架中的AlexNet模型,提出了一种基于多尺度深度卷积神经网络(multi-scale convolutional neural network,即MSCNN)的模型。MSCNN模型首先对原始图片进行下采样得到多个尺寸的图像,并作为训练样本,对训练样本进行多个通路的训练学习,每个通路与其相对应的滤波器进行卷积操作,得到图像的特征维度,然后把每个通路得到的特征维度通过一个全连接层进行融合,最终得到的特征用于图像识别分类,并把得到的最终特征作为输入数据输入到分类器中完成对物体的识别。实验表明:本文所提出的MSCNN结构模型对图像的识别获得了更高的识别率。 本论文通过不相同的数据集在对网络结构以及网络参数优化的研究上进行了测试,通过分析总结了深度学习对于图像识别分类的几点实行的规律,由于对于一样的深度学习网络结构,调节参数的好坏对其性能有直接的影响,因此对解决实际的问题有很好的指导作用。