论文部分内容阅读
最近几年随着深度学习技术的飞速发展,机器学习算法的性能得到了大幅提升。深度学习技术作为一种非常有潜力的机器学习算法,正潜移默化地改变着我们的生活方式。深度学习模型,像卷积神经网络(CNN),递归神经网络(RNN)和长短期记忆人工神经网络(LSTM)等,已在计算机视觉、语音识别、自然语言处理等领域得到了广泛的应用和关注,推动了相关领域的发展。在数据量呈爆炸式增长的时代,为了充分发挥大数据的优势,挖掘数据中潜在的规律和信息,如何有效地训练更深、更复杂的神经网络模型已经成为了学术界和工业界共同关注的问题。深度学习技术通过无监督预训练的方式在一定程度上缓解了深度神经网络模型的训练困难,但是在发掘深度神经网络巨大的潜能上,仍然存在着一些亟待解决的难题:(1)梯度消失和梯度爆炸。这两个问题普遍存在于使用基于梯度方法(比如反向传播算法)训练深度神经网络模型的过程中,由于梯度在传播过程中的不断衰减,使得模型低层的参数不能得到充分地训练,随着模型深度的不断增加,这种情况变得更为严重。(2)过拟合问题。由于模型同时拟合了训练数据中的潜在分布和噪声,而其中的噪声对测试数据并不适用,造成了模型在测试数据上性能可能下滑严重的现象,影响了模型的泛化能力。本文将从非线性激活函数、模型参数初始化方法和正则化方法三个角度来缓解上述深度神经网络模型训练的难题。论文的主要工作和贡献如下:1.提出了一 种使用多层 Maxout 网络(Multilayer Maxout Network,MMN)的非线性激活函数,同时继承了非饱和激活函数和训练数据驱动的特性,能够拟合任意形状的非线性激活函数。MMN激活函数的一个主要优势在于可训练的特性和逐段线性的结构,可以缓解反向传播过程中出现的梯度消失问题;另一个主要优势在于MMN激活函数的多层结构,能够与端到端训练相结合,提高卷积神经网络模型的特征表示能力。2.通过理论分析深度神经网络模型的前向传播和反向传播过程,提出了一种基于MMN激活函数的模型参数初始化方法,这种初始化也适用于Maxout激活函数。在CIFAR10, CIFAR-100和ImageNet图像分类数据集上的实验结果证明本文所提出的模型参数初始化方法能够降低信号在隐层之间传播时隐层分布的变化,从而有效缓解深度神经网络模型训练过程中遇到的梯度消失和梯度爆炸问题。3.提出了一种基于联合目标函数的正则化方法,通过增加辅助监督信息,对深度神经网络模型的训练起到正则化的作用。本文提出的这种基于联合目标函数的正则化方法具有以下三个方面的优势:(1)联合目标函数包含两类辅助监督信息,分别是对卷积核参数的辅助监督信息和对非线性激活函数的辅助监督信息,两类监督信息都能有效缓解模型的过拟合问题,提高深度神经网络模型的性能,其中对非线性激活函数的辅助监督信息效果更加明显;(2)通过在预训练阶段使用结合了辅助监督信息的联合目标函数,深度神经网络模型的低层能够学习到更具区分性的特征,为后面端到端的有监督调优过程寻找一个更优的模型参数初始状态;(3)这种基于联合目标函数的正则化方法具有很好的通用性,能够和诸如dropout、数据增强等正则化方法结合使用,缓解深度神经网络模型的过拟合问题。