论文部分内容阅读
目前,深度学习方法已经广泛地应用于人类的社会生产和生活的各个方面,例如,物体识别、语音识别、自然语言处理以及无人驾驶等许多方面,大幅度地提升了人类社会的生产和生活的智能化水平。然而,深度神经网络的训练优化仍然被认为是比较困难的事情,需要大量的经验和技巧。深度神经网络的训练优化作为深度学习的基础理论的重要部分,对深度学习应用具有基础性的支撑作用。目前神经网络的初始化方法大多数是与网络深度无关、深度神经网络的权值空间中存在的对称性给神经网络训练带来了不利影响、Adam算法存在收敛性和泛化性问题、对深度经网络损失曲面的了解还很有限。因此本论文围绕着如何高效率地训练深度神经网络,重点研究解决这些问题的方法。本论文的主要贡献包括以下几个方面:(1)提出了基于权值缩放不变的归一化方法。神经深度网络的权值空间中的对称性对神经网络训练有不利影响,研究者提出了多种方法解决该问题,但计算开销都比较大。本论文根据Relu网络本身的权值缩放不变性,提出了基于权值缩放不变的归一化来解决该问题,即在训练过程中通过执行逐点权值缩放变换来对神经网络的权值进行调整,包括激活向前传播时的层内调整和梯度向后传播时的层间调整的两个阶段。大量的实验结果表明该归一化方法在各种数据集上能一致地提高各种神经网络结构的性能。(2)设计了修正的正交初始化方法。目前还没有关于深度卷积残差网络初始化时的信号传播和动力等距等问题的研究。本论文运用平均场理论、随机矩阵和自由概率等理论工具推导了深度卷积残差网络初始化时其特征图中激活的协方差矩阵的递推公式,发现该递推公式没有非0固定点;给出了深度卷积残差网络输出对输入Jacobian矩阵特征值密度分布的精确计算方法。渐近分析表明,深度卷积残差网络初始时要实现动力等距的必要条件为初始化必须与残差分支总数相关。基于这些理论分析和借鉴卷积的δ正交初始化,本论文设计了一种适用于深度卷积残差网络、与残差分支总数相关的初始化。通过大量实验验证了该初始化方法是有效的。(3)提出了具有动态动量和基础学习率的自适应梯度方法。最新研究发现Adam算法存在收敛性问题和泛化能力不如SGDM算法的问题。本论文分析了Adam类型算法中的基础学习率、动量系数和自适应学习率系数对于其动力学的复杂影响,借鉴Ada Bound的设计思想,设计了一种具有动态动量和基础学习率的自适应梯度方法。首次把训练过程中连续迭代梯度间的方向余弦距离和梯度的范数整合到Adam类型算法中用于调整这些系数,在训练后期控制这些系数光滑地切换到SGDM算法,从而提高了泛化能力。设计的算法同时具有Adam类型算法快速收敛性和SGDM算法泛化能力好等优点。通过多种机器学习任务的实验,验证了提出的方法性能超越Adam、Amsgrad和Ada Bound等算法。(4)设计了单调的策略优化算法。将深度神经网络等非线性逼近函数应用于强化学习所遇到的关键问题是,现有的许多强化学习的策略优化算法产生策略更新无法确保策略性能的单调提升,甚至出现严重退化。因此,本论文提出了一个新的关于策略改进的下界,即对状态空间上的策略发散度按平均的方式,而不是按最大的方式进行惩罚。直接对策略改进的下界进行优化非常困难,需要很高的计算开销。因此,本论文根据信任域策略优化的设计思想和利用广义优势函数估计对优势函数进行估计,基于新提出的策略改进下界,设计了一种单调策略优化算法,可以保证产生一系列单调的策略改进。大量实验验证了该策略优化算法的有效性。(5)进行了深度神经网络损失曲面实验探索。本论文对深度神经网络损失曲面进行了实验调查,包括:自适应优化算法的轨迹,轨迹处的损失函数Hessian矩阵和损失曲面的曲率,发现各种自适应优化算法的梯度方向几乎与损失曲面的排3位大的特征向量对应的特征方向垂直,而SGD算法的梯度方向却没有表现出这样的规律;沿Adan算法轨迹处的损失曲面Hessian矩阵几乎都是退化的,这说明很多理论研究中假设深度神经网络损失曲面Hessian矩阵非奇异是不合理的。(6)提出了基于权值缩放的神经网络集成方法。将集成的方法引入深度神经网络需要解决的关键问题是降低得到单个网络模型的训练开销,本论文利用局部极小值附近点对应网络模型间的多样性,基于Relu神经元的缩放不变性提出了一种新的深度神经网络集成方法,能以训练一个网络模型到收敛的计算开销可得到多个精确度和多样性都比较好的网络模型。大量实验结表明,在相同计算开销下,大多数情况本论文的SBE方法比目前流行的深度神经网络集成方法,如快照集成、快速几何集成等方法的性能要好。