论文部分内容阅读
摘 要:近年来随着深度学习的发展,图像识别与分类问题取得了飞速进展。而在深度学习的研究领域中,卷积神经网络被广泛应用于图像识别。文章对前人在卷积神经网络领域的研究成果进行了梳理与总结。首先介绍了深度学习的发展背景,然后介绍了一些常见卷积网络的模型,并对其中的微网络结构进行简述,最后对卷积神经网络的发展趋势与特点进行分析与总结。在未来的研究中,卷积神经网络仍将作为深度学习的一种重要模型得到进一步发展。
关键词:深度学习;卷积神经网络;微网络
中图分类号:TP301.6 文献标识码:A 文章编号:2096-4706(2021)02-0011-05
Abstract:In recent years,with the development of deep learning,image recognition and classification problems have made rapid progress. In the field of deep learning,convolutional neural network is widely used in image recognition. In this paper,the previous research results in the field of convolutional neural network are combed and summarized. Firstly,it will introduce the development background of deep learning,and then introduce some common convolutional network models,and briefly describes the micro network structure. Finally,it will analyze and summarize the development trend and characteristics of convolutional neural network. In the future research,convolutional neural network will be further developed as an important model of deep learning.
Keywords:deep learning;convolutional neural network;micro network
0 引 言
近年来深度学习研究大热,而卷积神经网络作为其中一种重要模型,梳理其发展脉络对于其研究和发展具有重大意义。以校级“大创”项目“‘以词搜图’检索系统”中对卷积神经网络的学习与研究历程为出发点,本文旨在梳理卷积神经网络的发展脉络,并对卷积神经网络的发展趋势做简要总结。
1 人工神经网络的背景
1.1 深度学习
深度学习最早其实可以追溯到感知神经元被提出的时期,随后经历了几次研究浪潮,并于近年不断受到研究者的青睐。深度学习以多层神经网络与后向传播算法为基础,在计算机视觉、自然语言处理、语音识别等领域有广泛应用。神经网络是一种具有多层次的模型,将原始数据经过各不同模块逐渐抽象,但保留源数据的主要特征。经过神经网络的不断抽象,理论上它可以拟合任意一个复杂函数[1]。
图1为一个神经网络的结构,分为输入层(Input units)、隐藏层(Hidden units)和输出层(Output units)。其中,Hidden units H1表示第一隐藏层,Hidden units H2表示第二隐层。
1.2 后向传播算法
1986年Hinton等人提出了误差后向传播(BackPro-pagation)算法[2]使得跌入低谷的神经网络研究再一次被人重新发掘。本质上讲,目标函数的梯度在多层神经网络中的后向传播过程是微积分中链式求导法则的实际应用。这一算法用于神經网络各层的权值更新。输入信息从输入层正向传播到输出层,计算误差的梯度便从顶部的输出层逐渐反向传播到输入层,一旦计算出了这些梯度就可以计算出对应权重。
后向传播算法也有它的局限性。比如,容易出现过拟合现象,以及梯度爆炸或梯度消失等现象,这些现象都有可能造成异常。针对这些问题,近年来不少学者都做出了探究并提出自己的解决方案。
2 卷积神经网络的发展
2.1 LeNet-5
卷积神经网络早在1989年就被提出,而Yann等人在1998年提出了卷积神经网络的第1个经典架构LeNet-5[3]。LeNet-5包含6个隐藏层,主要是靠卷积操作与池化操作堆叠来对图像特征进行抽取,并在MNIST数据集上取得了很好的效果。而这一架构的设计最早也是被应用于光学字符识别(主要是数字)。卷积这一数学操作能够很好地提取图像的空间特征;池化层的引入对特征产生了更强的抽象。并且通常使用双曲正切函数或sigmoid函数作为激活函数,处处连续可导,它最大的优点是体量小、易训练,图2为其模型图。其中,input表示输入,Flatten表示展平,将多维数组一维化以后再操作,output表示输出。
2.2 AlexNet
AlexNet是Krizhevsky和Hinton等人在2012年提出的架构,该模型在ILSVRC-2012取得了冠军的成绩[4]。该架构比LeNet-5略复杂一些,除去池化层外有5个卷积层和3个全连接层,在第1、2、5个卷积层后有池化层紧随其后。该项研究提出了一系列神经网络编写的技巧,例如使用数据增强方法扩充数据集;使用Drop-Out来减少过拟合;提出局部相应归一化(Local Response Normalization)来增强模型的泛化能力;且使用目前常用的ReLU函数作为激活函数等。相比于LeNet-5,准确率得到了进一步提升。 2.3 VGG
VGG是SimonYan和Zisserman等在2015年提出的架构,相比于AlexNet深度更高[5]。这一架构不只是提高了在ILSVRC竞赛数据上的准确率,还能够方便地进行迁移学习应用于其它数据集。VGG的深度多为11、13、16和19,其中又以VGG-19表现最佳。这一架构的提出以及相关实验验证了一个猜想:在一定范围内适当增加卷积网络的深度可以提高网络的准确率。
2.4 Network-in-Network
Network-in-Network由新加坡国立大学的Lin等人于2014年提出,首次将若干卷积层与全连接层的组合封装为一个特殊模块,并命名为MLPConv模块[6]。这一架构在表现上比AlexNet更佳。尽管仍然只是卷积层、池化层和全连接层的堆砌,但它的重大意义在于提供了一种思想,即“微网络”,将某些层按照某种特定方式组合在一起使其模块化。也正是由于这种思想,现代的神经网络工作者们可以从过分细化的思维中跳出来,从而发现更宏观更加模块化的新结构。
2.5 Inception
Inception是Google团队在2014年的力作,并于2015重新发掘并提出了Inception-v3架构[7]。这一架构主要是解决两个目的:第一,传统的网络层堆砌达到一定深度后会发生准确率饱和的现象;第二,如何在保证准确率不降的同时使开销降低。从2.4中Network-in-Network介绍的思想出发,Google团队通过引入多个分支将不同层并联在一起,使得梯度能够通过合适的线路传递下去。并且研究者发现,使用若干小的卷积核组合比一个大的卷积核效果更好。Inception作为一种微网络,为GoogleNet的诞生打下了基础。图3为最基础的Inception结构,Previous layer接收上一层输入,convolutions進行卷积,最后的Filter concatenation对四条路径进行一个综合。
2.6 GoogleNet
GoogleNet也是Google团队于2015年在CVPR上发表的作品,该网络以Inception作为其微网络进行模型构建[8]。它在ILSVRC-2014上获得冠军,表现非凡。通过Inception的堆积增加了模型深度的同时也提高了模型的预测准确率。可以说Inception和GoogleNet的研究是第一个摆脱了“卷积层单线堆叠”这一传统的架构思维,具有重大意义,也为后续提出新的复杂微网络结构提供理论基础。GoogleNet的结构如图4所示,其中conv表示卷积,MaxPooling表示最大池化,Depth concat将进行支路的汇总。
2.7 ResNet
ResNet由微软团队的He等人在2015年提出,引入了残差学习(Residual Learning)的概念来提升性能[9]。单纯地靠卷积层堆叠的方法,当深度达到一定程度以后不但不会使效果提升反而会使得效果恶化,此时梯度消失和梯度爆炸的现象将十分严重。所以,研究人员设计了残差学习的方法,通过引入shortcut作为Res-Block微网络的处理方式,将堆叠的卷积层分成了两个部分:Identity mapping和Residual mapping。ResNet的表达式为:
Identity mapping将原有信息直接传递到Res-Block的末尾,而Residual mapping部分由一系列卷积层堆砌而成,只需要学习一个差函数F(x)即可。两部分组合以后才是我们的目标H(x)。它缓解了随着深度增加准确率不升反降的问题,但深度也不能太高,因为经过实验,具有1202层的ResNet在效果上准确率表现不如101层ResNet但是开销更大。Res-Block的结构和ResNet的结构分别如图5和图6所示。其中图5的weight layer表示卷积块能够进行学习,identity则将原始输入直接送到网络末尾。图6中一共三种层,image图片被送入网络以后,conv表示卷积层,avg pool表示平均池化,fc表示全连接层。shortcut仅针对卷积层进行短切。
2.8 DenseNet
DenseNet是对ResNet的进一步改进,由Huang等人于2018年提出[10]。网络的结构正如它的名称,连接比较密集,而且同ResNet一样都可以有效解决梯度消失问题。但不同的是,它将微网络单元Dense-Block中每个卷积层都直接相连,使得它构成了完全图。虽然连接变多了,但是却比ResNet具有更少的参数,更加容易训练,而且具备一定正则化效果。
图7为Dense-Block结构示意图。其中,H表示对应的Dense-Block,x表示对应单元块的输入。Input层表示网络在开始训练时的接收输入,而在经过多个BN-ReLU-Conv(批量归一化-激活-卷积堆叠)串成的主线与若干short-cut支线结合形成的复杂网络训练以后,最终被输出。值得注意的是,当一个Dense-Block有n层时,总的连接数为:
2.9 ShuffleNet
以往的研究都过分看重加深网络深度来提高准确率,而对于模型开销的简化则研究甚少。所以,Zhang等人提出ShuffleNet这一架构来降低模型开销,使其便于训练和部署[11]这一网络架构参考了分布式的理念,将不同信道(在图像中主要表现为RGB三通道)的卷积结果乱序以后再进行进一步处理,又称为群体卷积(Group Convolution)。将这一方法引入神经网络,可以使得网络在保证准确率的同时,相比于其它架构单元具有更强的泛化能力。
2.10 MobileNet MobileNet的目标为能够方便地在移动端部署的深度学习模型,由A.G.Howard等人在2017年提出[12]。相比于ResNet等大型网络,这一网络更小而且更容易训练。通过深度自分割卷积操作能够有效将训练复杂度降低。另外,该网络还引入了两个超参数:宽度乘子和卷积核乘子,在进一步降低训练难度的同时保证准确率。经过深度自分割卷积以后空间开销与原有开销的比例为:
这一比例结果表明,通过引入深度自分割卷积等操作,参数量相比原来大大减少,从而能够在极大程度上降低训练难度。若使用深度自分割卷积的核尺寸为(3×3)的话,计算量将是普通(3×3)卷积核的八分之一到九分之一。
3 卷积神经网络的发展前景
3.1 卷积神经网络的应用
卷积神经网络用于图像处理与计算机视觉有着得天独厚的优势,在模式识别、目标探测、目标分割以及图像分类等领域有着重要作用。除此以外,卷积作为一种常用的数学操作,也可以用于信号处理。近年来随着多模态理论的发展,卷积神经网络和循环神经网络也常常组合使用,建立“视频-图像-文本”的模型。
3.2 卷积神经网络的新元素
卷积神经网络在发展过程中也不断吸纳新的思想来创造出新的结构。例如分形网络,就利用了分形几何思想对ResNet进行了改进[13];还有金字塔网络,自上而下增加宽度进行改进[14],等等。此外,通过引入计算机视觉中注意力的概念,现在也诞生了一些基于注意力机制的网络例如SENet[15]等。
3.3 卷积神经网络的发展趋势
从卷积神经网络的发展历程来看,我们发现卷积网络主要追求两方面的改进:
(1)通过加深模型的深度来提高模型的准确率。
(2)减少模型参数来降低模型训练所需的开销。
而微观角度上,我们又可以发现以下特点:
(1)用多个小卷积核代替大卷积核。
(2)用深度自分割卷積代替普通卷积。
(3)更大程度上利用分布式原理。
(4)微网络单元变化越发丰富。
综观卷积神经网络的发展,结合以LSTM为代表的循环神经网络与多模态理论,日后卷积网络可能还会在带有时序成分的图像处理(如视频等)以及时空双流的卷积神经网络中取得重大突破。此外,目前的卷积神经网络处理的是主要是二维数据,日后可能诞生三维的卷积神经网络来构建三维模型[16]。
4 结 论
本文梳理了卷积神经网络相关研究的发展脉络,从深度学习的提出到今天卷积神经网络的发展,卷积神经网络结构上和方法上的变化。可以看到,从最早的LeNet-5、AlexNet等到后来的ResNet、DenseNet等规模大准确率高的模型,以及MobileNet、ShuffleNet等一些开销小易于部署的模型,卷积神经网络的相关研究也在不断发展。在这一过程中诞生了一些具有重大意义的思想例如network-in-network等,也引入了一些新的元素改进模型性能。但目前卷积神经网络的训练开销仍然不小,如何选择合适的卷积核、层数、学习率等仍然有待业界更深入的研究。
参考文献:
[1] YANN L C,BENGIO Y,HINTON G. Deep learning [J].Nature,2015,521(7553):436-444.
[2] RUMELHART D E,HINTON G E,WILLIAMS R J. Learning representations by back-propagating errors [J].Nature,1986,323:533-536.
[3] YANN L C,BOTTOU L,BENGIO Y,et al. Gradient-based learning applied to document recognition [J].Proceedings of the IEEE,1998,86(11):2278-2324.
[4] KRIZHEVSKY A,SUTSKEVER I,HINTON G. ImageNet Classification with Deep Convolutional Neural Networks [C]//NIPS’12.New York:Curran Associates Inc,2012:1-9.
[5] SIMONYAN K,ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition [J/OL].arXiv:1409.1556v6 [cs.CV].(2014-04-10).https://arxiv.org/abs/1409.1556v6.
[6] LIN M,CHEN Q,YAN S C. Network In Network [J/OL].arXiv:1312.4400v3 [cs.NE].(2013-12-16).https://arxiv.org/abs/1312. 4400v3.
[7] SZEGEDY C,VANHOUCKE V,IOFFE S,et al. Rethinking the Inception Architecture for Computer Vision [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas:IEEE,2016:2818-2826.
[8] SZEGEDY C,LIU W,JIA Y Q,et al. Going deeper with convolutions [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Boston:IEEE,2015:1-9. [9] HE K M,ZHANG X Y,REN S Q,et al. Deep Residual Learning for Image Recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas:IEEE,2016:770-778.
[10] HUANG G,LIU Z,MAATEN L V D,et al. Densely Connected Convolutional Networks [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Honolulu:IEEE,2017:2261-2269.
[11] ZHANG X Y,ZHOU X Y,LIN M X,et al. ShuffleNet:An Extremely Efficient Convolutional Neural Network for Mobile Devices [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:6848-6856.
[12] HOWARD A G,ZHU M L,CHEN B,et al. MobileNets:Efficient Convolutional Neural Networks for Mobile Vision Applications [J/OL].arXiv:1704.04861v1 [cs.CV].(2017-04-17).https://arxiv.org/abs/1704.04861v1.
[13] LARSSON G,MAIRE M,SHAKHNAROVICH G. FractalNet:Ultra-Deep Neural Networks without Residuals [J/OL].arXiv:1605.07648v4 [cs.CV].(2017-05-26).https://arxiv.org/abs/1605.07648v4.
[14] HAN D Y,KIM J H,KIM J M. Deep Pyramidal Residual Networks [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Honolulu:IEEE,2017:6307-6315.
[15] HU J,SHEN L,SUN G. Squeeze-and-Excitation Networks [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:7132-7141.
[16] HADJI I,WILDES R P. What Do We Understand About Convolutional Networks? [J/OL].arXiv:1803.08834v1 [cs.CV].(2018-05-23).https://arxiv.org/abs/1803.08834.
作者簡介:马世拓(2001.10—)男,汉族,湖北武汉人,本科在读,研究方向:机器学习与数据挖掘;班一杰(2001.12—),男,汉族,山东临沂人,本科在读,研究方向:物联网工程;戴陈至力(2002.04—),男,汉族,江苏泰州人,本科在读,研究方向:计算机视觉。
关键词:深度学习;卷积神经网络;微网络
中图分类号:TP301.6 文献标识码:A 文章编号:2096-4706(2021)02-0011-05
Abstract:In recent years,with the development of deep learning,image recognition and classification problems have made rapid progress. In the field of deep learning,convolutional neural network is widely used in image recognition. In this paper,the previous research results in the field of convolutional neural network are combed and summarized. Firstly,it will introduce the development background of deep learning,and then introduce some common convolutional network models,and briefly describes the micro network structure. Finally,it will analyze and summarize the development trend and characteristics of convolutional neural network. In the future research,convolutional neural network will be further developed as an important model of deep learning.
Keywords:deep learning;convolutional neural network;micro network
0 引 言
近年来深度学习研究大热,而卷积神经网络作为其中一种重要模型,梳理其发展脉络对于其研究和发展具有重大意义。以校级“大创”项目“‘以词搜图’检索系统”中对卷积神经网络的学习与研究历程为出发点,本文旨在梳理卷积神经网络的发展脉络,并对卷积神经网络的发展趋势做简要总结。
1 人工神经网络的背景
1.1 深度学习
深度学习最早其实可以追溯到感知神经元被提出的时期,随后经历了几次研究浪潮,并于近年不断受到研究者的青睐。深度学习以多层神经网络与后向传播算法为基础,在计算机视觉、自然语言处理、语音识别等领域有广泛应用。神经网络是一种具有多层次的模型,将原始数据经过各不同模块逐渐抽象,但保留源数据的主要特征。经过神经网络的不断抽象,理论上它可以拟合任意一个复杂函数[1]。
图1为一个神经网络的结构,分为输入层(Input units)、隐藏层(Hidden units)和输出层(Output units)。其中,Hidden units H1表示第一隐藏层,Hidden units H2表示第二隐层。
1.2 后向传播算法
1986年Hinton等人提出了误差后向传播(BackPro-pagation)算法[2]使得跌入低谷的神经网络研究再一次被人重新发掘。本质上讲,目标函数的梯度在多层神经网络中的后向传播过程是微积分中链式求导法则的实际应用。这一算法用于神經网络各层的权值更新。输入信息从输入层正向传播到输出层,计算误差的梯度便从顶部的输出层逐渐反向传播到输入层,一旦计算出了这些梯度就可以计算出对应权重。
后向传播算法也有它的局限性。比如,容易出现过拟合现象,以及梯度爆炸或梯度消失等现象,这些现象都有可能造成异常。针对这些问题,近年来不少学者都做出了探究并提出自己的解决方案。
2 卷积神经网络的发展
2.1 LeNet-5
卷积神经网络早在1989年就被提出,而Yann等人在1998年提出了卷积神经网络的第1个经典架构LeNet-5[3]。LeNet-5包含6个隐藏层,主要是靠卷积操作与池化操作堆叠来对图像特征进行抽取,并在MNIST数据集上取得了很好的效果。而这一架构的设计最早也是被应用于光学字符识别(主要是数字)。卷积这一数学操作能够很好地提取图像的空间特征;池化层的引入对特征产生了更强的抽象。并且通常使用双曲正切函数或sigmoid函数作为激活函数,处处连续可导,它最大的优点是体量小、易训练,图2为其模型图。其中,input表示输入,Flatten表示展平,将多维数组一维化以后再操作,output表示输出。
2.2 AlexNet
AlexNet是Krizhevsky和Hinton等人在2012年提出的架构,该模型在ILSVRC-2012取得了冠军的成绩[4]。该架构比LeNet-5略复杂一些,除去池化层外有5个卷积层和3个全连接层,在第1、2、5个卷积层后有池化层紧随其后。该项研究提出了一系列神经网络编写的技巧,例如使用数据增强方法扩充数据集;使用Drop-Out来减少过拟合;提出局部相应归一化(Local Response Normalization)来增强模型的泛化能力;且使用目前常用的ReLU函数作为激活函数等。相比于LeNet-5,准确率得到了进一步提升。 2.3 VGG
VGG是SimonYan和Zisserman等在2015年提出的架构,相比于AlexNet深度更高[5]。这一架构不只是提高了在ILSVRC竞赛数据上的准确率,还能够方便地进行迁移学习应用于其它数据集。VGG的深度多为11、13、16和19,其中又以VGG-19表现最佳。这一架构的提出以及相关实验验证了一个猜想:在一定范围内适当增加卷积网络的深度可以提高网络的准确率。
2.4 Network-in-Network
Network-in-Network由新加坡国立大学的Lin等人于2014年提出,首次将若干卷积层与全连接层的组合封装为一个特殊模块,并命名为MLPConv模块[6]。这一架构在表现上比AlexNet更佳。尽管仍然只是卷积层、池化层和全连接层的堆砌,但它的重大意义在于提供了一种思想,即“微网络”,将某些层按照某种特定方式组合在一起使其模块化。也正是由于这种思想,现代的神经网络工作者们可以从过分细化的思维中跳出来,从而发现更宏观更加模块化的新结构。
2.5 Inception
Inception是Google团队在2014年的力作,并于2015重新发掘并提出了Inception-v3架构[7]。这一架构主要是解决两个目的:第一,传统的网络层堆砌达到一定深度后会发生准确率饱和的现象;第二,如何在保证准确率不降的同时使开销降低。从2.4中Network-in-Network介绍的思想出发,Google团队通过引入多个分支将不同层并联在一起,使得梯度能够通过合适的线路传递下去。并且研究者发现,使用若干小的卷积核组合比一个大的卷积核效果更好。Inception作为一种微网络,为GoogleNet的诞生打下了基础。图3为最基础的Inception结构,Previous layer接收上一层输入,convolutions進行卷积,最后的Filter concatenation对四条路径进行一个综合。
2.6 GoogleNet
GoogleNet也是Google团队于2015年在CVPR上发表的作品,该网络以Inception作为其微网络进行模型构建[8]。它在ILSVRC-2014上获得冠军,表现非凡。通过Inception的堆积增加了模型深度的同时也提高了模型的预测准确率。可以说Inception和GoogleNet的研究是第一个摆脱了“卷积层单线堆叠”这一传统的架构思维,具有重大意义,也为后续提出新的复杂微网络结构提供理论基础。GoogleNet的结构如图4所示,其中conv表示卷积,MaxPooling表示最大池化,Depth concat将进行支路的汇总。
2.7 ResNet
ResNet由微软团队的He等人在2015年提出,引入了残差学习(Residual Learning)的概念来提升性能[9]。单纯地靠卷积层堆叠的方法,当深度达到一定程度以后不但不会使效果提升反而会使得效果恶化,此时梯度消失和梯度爆炸的现象将十分严重。所以,研究人员设计了残差学习的方法,通过引入shortcut作为Res-Block微网络的处理方式,将堆叠的卷积层分成了两个部分:Identity mapping和Residual mapping。ResNet的表达式为:
Identity mapping将原有信息直接传递到Res-Block的末尾,而Residual mapping部分由一系列卷积层堆砌而成,只需要学习一个差函数F(x)即可。两部分组合以后才是我们的目标H(x)。它缓解了随着深度增加准确率不升反降的问题,但深度也不能太高,因为经过实验,具有1202层的ResNet在效果上准确率表现不如101层ResNet但是开销更大。Res-Block的结构和ResNet的结构分别如图5和图6所示。其中图5的weight layer表示卷积块能够进行学习,identity则将原始输入直接送到网络末尾。图6中一共三种层,image图片被送入网络以后,conv表示卷积层,avg pool表示平均池化,fc表示全连接层。shortcut仅针对卷积层进行短切。
2.8 DenseNet
DenseNet是对ResNet的进一步改进,由Huang等人于2018年提出[10]。网络的结构正如它的名称,连接比较密集,而且同ResNet一样都可以有效解决梯度消失问题。但不同的是,它将微网络单元Dense-Block中每个卷积层都直接相连,使得它构成了完全图。虽然连接变多了,但是却比ResNet具有更少的参数,更加容易训练,而且具备一定正则化效果。
图7为Dense-Block结构示意图。其中,H表示对应的Dense-Block,x表示对应单元块的输入。Input层表示网络在开始训练时的接收输入,而在经过多个BN-ReLU-Conv(批量归一化-激活-卷积堆叠)串成的主线与若干short-cut支线结合形成的复杂网络训练以后,最终被输出。值得注意的是,当一个Dense-Block有n层时,总的连接数为:
2.9 ShuffleNet
以往的研究都过分看重加深网络深度来提高准确率,而对于模型开销的简化则研究甚少。所以,Zhang等人提出ShuffleNet这一架构来降低模型开销,使其便于训练和部署[11]这一网络架构参考了分布式的理念,将不同信道(在图像中主要表现为RGB三通道)的卷积结果乱序以后再进行进一步处理,又称为群体卷积(Group Convolution)。将这一方法引入神经网络,可以使得网络在保证准确率的同时,相比于其它架构单元具有更强的泛化能力。
2.10 MobileNet MobileNet的目标为能够方便地在移动端部署的深度学习模型,由A.G.Howard等人在2017年提出[12]。相比于ResNet等大型网络,这一网络更小而且更容易训练。通过深度自分割卷积操作能够有效将训练复杂度降低。另外,该网络还引入了两个超参数:宽度乘子和卷积核乘子,在进一步降低训练难度的同时保证准确率。经过深度自分割卷积以后空间开销与原有开销的比例为:
这一比例结果表明,通过引入深度自分割卷积等操作,参数量相比原来大大减少,从而能够在极大程度上降低训练难度。若使用深度自分割卷积的核尺寸为(3×3)的话,计算量将是普通(3×3)卷积核的八分之一到九分之一。
3 卷积神经网络的发展前景
3.1 卷积神经网络的应用
卷积神经网络用于图像处理与计算机视觉有着得天独厚的优势,在模式识别、目标探测、目标分割以及图像分类等领域有着重要作用。除此以外,卷积作为一种常用的数学操作,也可以用于信号处理。近年来随着多模态理论的发展,卷积神经网络和循环神经网络也常常组合使用,建立“视频-图像-文本”的模型。
3.2 卷积神经网络的新元素
卷积神经网络在发展过程中也不断吸纳新的思想来创造出新的结构。例如分形网络,就利用了分形几何思想对ResNet进行了改进[13];还有金字塔网络,自上而下增加宽度进行改进[14],等等。此外,通过引入计算机视觉中注意力的概念,现在也诞生了一些基于注意力机制的网络例如SENet[15]等。
3.3 卷积神经网络的发展趋势
从卷积神经网络的发展历程来看,我们发现卷积网络主要追求两方面的改进:
(1)通过加深模型的深度来提高模型的准确率。
(2)减少模型参数来降低模型训练所需的开销。
而微观角度上,我们又可以发现以下特点:
(1)用多个小卷积核代替大卷积核。
(2)用深度自分割卷積代替普通卷积。
(3)更大程度上利用分布式原理。
(4)微网络单元变化越发丰富。
综观卷积神经网络的发展,结合以LSTM为代表的循环神经网络与多模态理论,日后卷积网络可能还会在带有时序成分的图像处理(如视频等)以及时空双流的卷积神经网络中取得重大突破。此外,目前的卷积神经网络处理的是主要是二维数据,日后可能诞生三维的卷积神经网络来构建三维模型[16]。
4 结 论
本文梳理了卷积神经网络相关研究的发展脉络,从深度学习的提出到今天卷积神经网络的发展,卷积神经网络结构上和方法上的变化。可以看到,从最早的LeNet-5、AlexNet等到后来的ResNet、DenseNet等规模大准确率高的模型,以及MobileNet、ShuffleNet等一些开销小易于部署的模型,卷积神经网络的相关研究也在不断发展。在这一过程中诞生了一些具有重大意义的思想例如network-in-network等,也引入了一些新的元素改进模型性能。但目前卷积神经网络的训练开销仍然不小,如何选择合适的卷积核、层数、学习率等仍然有待业界更深入的研究。
参考文献:
[1] YANN L C,BENGIO Y,HINTON G. Deep learning [J].Nature,2015,521(7553):436-444.
[2] RUMELHART D E,HINTON G E,WILLIAMS R J. Learning representations by back-propagating errors [J].Nature,1986,323:533-536.
[3] YANN L C,BOTTOU L,BENGIO Y,et al. Gradient-based learning applied to document recognition [J].Proceedings of the IEEE,1998,86(11):2278-2324.
[4] KRIZHEVSKY A,SUTSKEVER I,HINTON G. ImageNet Classification with Deep Convolutional Neural Networks [C]//NIPS’12.New York:Curran Associates Inc,2012:1-9.
[5] SIMONYAN K,ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition [J/OL].arXiv:1409.1556v6 [cs.CV].(2014-04-10).https://arxiv.org/abs/1409.1556v6.
[6] LIN M,CHEN Q,YAN S C. Network In Network [J/OL].arXiv:1312.4400v3 [cs.NE].(2013-12-16).https://arxiv.org/abs/1312. 4400v3.
[7] SZEGEDY C,VANHOUCKE V,IOFFE S,et al. Rethinking the Inception Architecture for Computer Vision [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas:IEEE,2016:2818-2826.
[8] SZEGEDY C,LIU W,JIA Y Q,et al. Going deeper with convolutions [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Boston:IEEE,2015:1-9. [9] HE K M,ZHANG X Y,REN S Q,et al. Deep Residual Learning for Image Recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas:IEEE,2016:770-778.
[10] HUANG G,LIU Z,MAATEN L V D,et al. Densely Connected Convolutional Networks [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Honolulu:IEEE,2017:2261-2269.
[11] ZHANG X Y,ZHOU X Y,LIN M X,et al. ShuffleNet:An Extremely Efficient Convolutional Neural Network for Mobile Devices [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:6848-6856.
[12] HOWARD A G,ZHU M L,CHEN B,et al. MobileNets:Efficient Convolutional Neural Networks for Mobile Vision Applications [J/OL].arXiv:1704.04861v1 [cs.CV].(2017-04-17).https://arxiv.org/abs/1704.04861v1.
[13] LARSSON G,MAIRE M,SHAKHNAROVICH G. FractalNet:Ultra-Deep Neural Networks without Residuals [J/OL].arXiv:1605.07648v4 [cs.CV].(2017-05-26).https://arxiv.org/abs/1605.07648v4.
[14] HAN D Y,KIM J H,KIM J M. Deep Pyramidal Residual Networks [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Honolulu:IEEE,2017:6307-6315.
[15] HU J,SHEN L,SUN G. Squeeze-and-Excitation Networks [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:7132-7141.
[16] HADJI I,WILDES R P. What Do We Understand About Convolutional Networks? [J/OL].arXiv:1803.08834v1 [cs.CV].(2018-05-23).https://arxiv.org/abs/1803.08834.
作者簡介:马世拓(2001.10—)男,汉族,湖北武汉人,本科在读,研究方向:机器学习与数据挖掘;班一杰(2001.12—),男,汉族,山东临沂人,本科在读,研究方向:物联网工程;戴陈至力(2002.04—),男,汉族,江苏泰州人,本科在读,研究方向:计算机视觉。