基于VGG网络的数字图像分类的研究

来源 :大众科学·下旬 | 被引量 : 0次 | 上传用户:sinox2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:图像分类是计算机视觉的核心,对其他视觉任务起到了先驱任务。本文采用了VGG-11网络完成对Fashion-mnist数据集分类。对于给定的感受野采用堆积的小卷积核是优于采用大的卷积核,多层非线性层增加网络深度来保证学习更复杂的模式,而且代价还比较小。
  关键词:图像分类;VGG;Fashion-mnist
  1.引言
  物体分类与检测的研究,是整个计算机视觉研究的基石,是解决跟踪、分割、场景理解等其他复杂视觉问题的基础。欲对实际复杂场景进行自动分析与理解,首先就需要确定图像中存在什么物体(分类问题),或者是确定图像中什么位置存在什么物体(检测问题)。鉴于物体分类与检测在计算机视觉领域的重要地位,研究鲁棒、准确的物体分类与检测算法,无疑有着重要的理论意义和实际意义。随着深度学习的广泛应用,出现了很多著名的深度网络。LeNet是一个早期用来识别手写数字图像的卷积神经网络,卷积层块里的基本单位是卷积层后接最大池化层:卷积层用来识别图像里的空间模式,如線条和物体局部,之后的最大池化层则用来降低卷积层对位置的敏感性。卷积层块由两个这样的基本单位重复堆叠构成。在卷积层块中,每个卷积层都使用5×5的窗口,并在输出上使用sigmoid激活函数。AlexNet第一层中的卷积窗口形状是11×1111×11。因为ImageNet中绝大多数图像的高和宽均比MNIST图像的高和宽大10倍以上,ImageNet图像的物体占用更多的像素,所以需要更大的卷积窗口来捕获物体。第二层中的卷积窗口形状减小到5×5,之后全采用3×3。此外,第一、第二和第五个卷积层之后都使用了窗口形状为3×3、步幅为2的最大池化层。而且,AlexNet使用的卷积通道数也大于LeNet中的卷积通道数数十倍。AlexNet将sigmoid激活函数改成了更加简单的ReLU激活函数。一方面,ReLU激活函数的计算更简单,例如它并没有sigmoid激活函数中的求幂运算。另一方面,ReLU激活函数在不同的参数初始化方法下使模型更容易训练。本文使用的VGG网络[1]可以通过重复使用简单的基础块来构建深度模型,连续使用数个相同的填充为1、窗口形状为3×3的卷积层后接上一个步幅为2、窗口形状为2×2的最大池化层。卷积层保持输入的高和宽不变,而池化层则对其减半。
  2.VGG网络
  2.1 VGG原理
  VGGNet全部使用3*3的卷积核和2*2的池化核,通过不断加深网络结构来提升性能。网络层数的增长并不会带来参数量上的爆炸,因为参数量主要集中在最后三个全连接层中。同时,两个3*3卷积层的串联相当于1个5*5的卷积层,3个3*3的卷积层串联相当于1个7*7的卷积层,即3个3*3卷积层的感受野大小相当于1个7*7的卷积层。但是3个3*3的卷积层参数量只有7*7的一半左右,同时前者可以有3个非线性操作,而后者只有1个非线性操作,这样使得前者对于特征的学习能力更强。
  使用1*1的卷积层来增加线性变换,输出的通道数量上并没有发生改变。这里提一下1*1卷积层的其他用法,1*1的卷积层常被用来提炼特征,即多通道的特征组合在一起,凝练成较大通道或者较小通道的输出,而每张图片的大小不变。有时1*1的卷积神经网络还可以用来替代全连接层。
  2.2Batch Normalization原理
  批量归一化[2]的提出正是为了应对深度模型训练的挑战。在模型训练时,批量归一化利用小批量上的均值和标准差,不断调整神经网络中间输出,从而使整个神经网络在各层的中间输出的数值更稳定。通常批量归一化层置于全连接层中的仿射变换和激活函数之间。设全连接层的输入为μ,权重参数和偏差参数分别为w和b,激活函数为φ。设批量归一化的运算符为BN。那么,使用批量归一化的全连接层的输出为:
  φ(BN(x)〕
  其中批量归一化输入x由仿射变换:
  x=Wu+b
  得到。考虑一个由m个样本组成的小批量,仿射变换的输出为一个新的小批量β={x(1),…,x(m)}。它们正是批量归一化层的输入。对于小批量β中任意样本xi∈Ri,批量归一化层的输出同样是d维向量:
  yi=BN(xi)
  并由以下几步求得。首先,对小批量B求均值和方差:
  其中的平方计算是按元素求平方。接下来,使用按元素开方和按元素除法对x(i〕标准化:
  这里?>0是一个很小的常数,保证分母大于0。在上面标准化的基础上,批量归一化层引入了两个可以学习的模型参数,拉伸参数 γ 和偏移参数 β。这两个参数和x(i)形状相同,皆为d维向量。它们与x(i)分别做按元素乘法(符号⊙)和加法计算:
  至此,我们得到了      的批量归一化的输出yi。
  2.3网络结构
  VGG11网络结构如图所示,其中基本结构是一个或两个3*3的卷积核后面跟一个池化层,紧接着跟上一个Batch Normalization层,本文之所以把BN层加在池化层之后,而不是加在卷积层之后池化层之前,是因为网络较浅,梯度消失或梯度爆炸现象不容易发生,加在池化层后计算量将会减少。
  3.总结
  VGG网络通过重复使用简单的基础块来构建深度模型,连续使用数个相同窗口形状为3×3的卷积层后接上一个窗口形状为2×2的最大池化层。卷积层保持输入的高和宽不变,而池化层则对其减半。在Fashion-mnist数据集上,把BN层加在池化层之后十分有效。
  参考文献:
  [1].Smirnov E, Timoshenko D, Andrianov S, et al. Comparison of Regularization Methods for ImageNet Classification with Deep Convolutional Neural Networks[J]. AASRI Procedia, 2014: 89-94.
  [2].Ioffe S, Szegedy C. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift[J]. international conference on machine learning, 2015: 448-456.
  作者简介:李星星;1991.4;男;江西九江;广州工商学院;无 ;模式识别与图像处理
其他文献
摘 要:在如今多元化的社会里,教育方法也越来越多样化。针对小学数学这一学科而言,用不同的形式把知识呈现给学生会使学生对这门学科保持兴趣。合适的教学方法与课堂的有效结合还能够收获不错的教学效果。  关键词:多样化教学;小学数学;激发兴趣;提高效率;自学能力  不同的教学任务、不同的教学对象、不同的教学环境使教学方法变得越来越多样化,在数学教学中,教师对教学方法的选择决定着这节课是否精彩。每一种教学方
期刊
摘 要:固定资产管理是一项较为复杂的系统化工作,以往采用的管理方式已经无法满足单位的发展需求。当前是信息化时代,计算机技术的应用为各项工作开展带来了便利,固定资产管理也向着信息化和标准化的方向发展。为了促进传统管理模式向计算机管理模式转变,则需要建立完善的管理体系,提高管理人员的信息技术水平,建立固定资产数据库,同时做好日常管理工作,为单位固定资产管理工作的规范化开展奠定基础。  关键词:计算机;
期刊
摘 要:图书的选题开发与营销能力是出版社的核心竞争力的体现,本书以专业图书市场为例,介绍了专业图书编辑在图书选题策划中应该采用的方法及前期调研的内容,对图书产品的营销策略进行了初步的探讨,只有加强创新能力和品牌建设,提高实际工作中的策划和营销能力,出版社才能获得更好的社会效益和经济效益。  关键词:专业图书,选题策划,营销策略,品牌建设,创新  专业图书受众面较窄,因此市场份额也较小,此外,专业图
期刊
摘 要:随着科技高速发展,计算机行业的各项技术得到不断创新和升级。在此行业领域中,计算机软件开发一直是应用非常广泛并且极具科技含量的一项产业。笔者在本文中围绕计算机软件开发基础架构原理展开探讨和分析,并且提出一些建议和看法。  关键词:计算机软件开发;基础架构;原理  引言:就我国目前计算机软件开发整体水平来看,仅在提高设计技术上加大投入、加强生产已无法满足广大用户和各行各业的整体需求。所以我们必
期刊
摘 要:体育是教学的重要组成部分,本文认为小学体育教学的目的应以培养学生的体育学习兴趣为主,以提升学生的体育技能为辅,注重培养学生的体育精神,让他们在体育学习的过程中,拥有各种优秀品质。本文重点从游戏着力,提升学生的体育学习兴趣度。  关键词:游戏之力;体育学习;学习兴趣;教学策略  在现阶段的小学体育教学中,大部分的教师不注重培养学生的体育学习兴趣,存在“为了教体育而教体育”的状况。这种教学观念
期刊
摘 要:随着国际化社会的不断加快,英语在人们日常生活中的使用频率也愈加提高,同样,对英语教学的关注度也逐渐上升,初中作为学生义务教育阶段的“黄金期”,开展有效的英语课堂教学是教师教学活动的标准,然而,在教师积极讲授的过程中,学生的英语水平还是得不到有效的提升,究其原因,主要是教学方式的原因,因此,本文作者结合自身多年教育实践经验,对初中英语课堂教学展开研究。  关键词:初中英语;课堂教学;有效教学
期刊
摘 要:猫脸识别技术目前被广泛应用在工业界,其中最重要也是最开始的一步就是需要进行猫脸检测。本文采用Haar特征进行猫脸的特征提取,快速计算Haar矩形特征值——积分图,筛选有效的矩形特征用于分类识别,采用AdaBoost分类器将弱分类器变成强分类器能够有效的检测猫脸。  关键词:猫脸检测;Haar特征;级联分类器  一、引言  猫脸检测是机器视觉领域被深入研究的经典问题,在宠物检测、宠物饲养等领
期刊
摘 要:在小学低年级阶段,学生刚刚接触数学,对于数学语言比较陌生,常常在教学中出现不适应的现象,影響了学生对数学学习的兴趣。教师应从学生的身心发展规律入手,帮助学生感受数学、认识数学,使学生对数学学科产生兴趣。在本文中,笔者将从教学实践入手,探索小学低年级数学教学中如何激发学习兴趣。  关键词:小学数学低年级教学;学习兴趣;激发方法  兴趣是教学最大的推动力,尤其是在小学阶段,学生处于好奇心旺盛的
期刊
摘 要:在新世纪的文化发展中,越来越多的文化作品拔地而起。这就导致了文学作品取得了很高的地位和价值,文学作品的影响力是全球化的,因为国外的文化基础与中国有很大的差异,所以导致了中外之间文化有了分歧。而怎么样跨越这些分歧与国际接轨,使得中国的作品展现在世界各地。这是中国的出版人应该思考的重要问题。因为当今世界的格局是全球化的格局,因而中国的出版人更应该从基础,根据历史来考察国外的文学,对于海外传播有
期刊
摘 要:随着我国社会经济和科学技术的不断创新发展,人工智能领域也因此获得了巨大的发展契机,在人工智能发展期间计算机通信技术与电子信息起到了极为重要的帮助,其可以对人工智能的算法提供数据支持,提高了海量数据信息处理速度,得到更加科学的处理结果。为此,本文将对计算机通信技术与电子信息在人工智能领域中的实践应用作为调查研究对象,分析其应用作用。  关键词:计算机通信技术;电子信息;人工智能领域;实践应用
期刊