论文部分内容阅读
近年来,图像分类和识别技术越来越多地应用于医学影像诊断、公共场所安保和无人驾驶等领域,在某些方面的分类准确率已经超过了人类专家。相比传统图像分类方法,卷积神经网络在图像分类任务中有着出色的表现。为了追求更高的分类准确率,研究人员不断加深、加宽并优化神经网络的结构,提出新的参数更新方法。在现实世界中,一些实际应用所搭载的平台为移动设备等一些存储空间和计算能力有限的设备,因此参数量和计算量小的神经网络在工程上更为可行。本文以图像分类任务为背景,对卷积神经网络的结构设计进行研究,主要工作如下:(1)针对最大池化丢失“有用”信息的问题,提出全采样方法和基于L1范数的降采样方法。全采样方法利用所有输入,基于L1范数的方法把输入数据划分为不重叠的2?2?d(高?宽?深)的张量(多维数组)。对于每个2?2?d的张量,抽取其中相同位置的1?1?d的张量组成一个新的张量,共得到4个新的张量。从这4个张量中选择L1范数最大的k(k=1,2,3)个张量,在通道维度上拼接起来,实现降采样。为验证所提方法有效性,在CIFAR-10数据集和MNIST数据集上分别进行实验,结果表明,相比最大池化,所提方法可以在参数量不增加的前提下提高分类准确率。(2)针对参数量大的神经网络工程上不便应用的问题,本文对基于结构设计的模型压缩方法进行了研究,分析了通道维度分别卷积(depthwise seperable convolution)、分组卷积(group convolution)、使用1?1卷积核替代3?3卷积核的模型压缩效率,并且介绍了与分组卷积相关的分组洗牌(group shuffle)技术。对全采样方法和基于L1范数的降采样方法构建的卷积神经网络进行了模型压缩。在实际选择时,可以根据实际情况对参数量和分类准确率二者进行权衡。