论文部分内容阅读
日常生活中图像作为一种信息源处处可见,相对于其他信息源而言信息含量巨大,图像的复杂、冗余等特性将其与其他种类信息源区分开来。近年来,人类视觉系统在图像处理方面的研究,已经受到越来越多的关注。深度学习是机器学习算法的一种,在图像和语音识别方面取得了很好的效果,使机器模仿人脑思考视听等活动,使得人工智能取得了很大的进步。论文的主要研究内容有:论文针对传统图像识别方法需进行手工抽取特征的局限性及传统卷积神经网络的结构,对卷积神经网络模型进行了改进,并应用到手写字体识别和人脸识别中,取得了良好的效果。(1)研究了Caffe深度学习方法,搭建了Caffe深度学习框架平台。(2)对卷积神经网络的结构及改进方法进行研究,在卷积过程中,使用ReLU激活函数替代传统sigmoid和tanh激活函数,然后对提取到的特征采取最大池化方式,不仅降低了特征的维数,增加网络的可计算性,同时使提取的特征具有一定的平移不变性,再引入dropout技术解决网络的过拟合问题。(3)将改进的卷积神经网络CNN1-R、CNN3-R应用到手写字体识别和人脸识别中,通过实验分析其算法的优劣性,通过比较不同结构下的训练结果,CNN3-R在手写字体的识别中准确率要高于CNN1-R网络,证明改进网络的可行性,CNN3-R不仅识别率可以达到99.16%同时loss损失值也能在短时间内收敛。(4)用Gabor滤波器来代替卷积层中的卷积核改进模型CNN-G应用到人脸识别中,同时将5个不同尺度下的6个斜方向的Gabor滤波器固定为第一个卷积层对应的卷积核,然后分别在ORL、Yale B人脸识别库上进行实验,与CNN-G+SVM和PCA+SVM的方法进行比较,当特征维数为120时,单尺度下CNN-G取得的分类较优于PCA+SVM的方法。随着特征维数的降低,多尺度CNN-G的分类效果更好。