深度神经网络的训练优化方法研究

来源 :华南理工大学 | 被引量 : 7次 | 上传用户:xf198699
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,深度学习方法已经广泛地应用于人类的社会生产和生活的各个方面,例如,物体识别、语音识别、自然语言处理以及无人驾驶等许多方面,大幅度地提升了人类社会的生产和生活的智能化水平。然而,深度神经网络的训练优化仍然被认为是比较困难的事情,需要大量的经验和技巧。深度神经网络的训练优化作为深度学习的基础理论的重要部分,对深度学习应用具有基础性的支撑作用。目前神经网络的初始化方法大多数是与网络深度无关、深度神经网络的权值空间中存在的对称性给神经网络训练带来了不利影响、Adam算法存在收敛性和泛化性问题、对深度经网络损失曲面的了解还很有限。因此本论文围绕着如何高效率地训练深度神经网络,重点研究解决这些问题的方法。本论文的主要贡献包括以下几个方面:(1)提出了基于权值缩放不变的归一化方法。神经深度网络的权值空间中的对称性对神经网络训练有不利影响,研究者提出了多种方法解决该问题,但计算开销都比较大。本论文根据Relu网络本身的权值缩放不变性,提出了基于权值缩放不变的归一化来解决该问题,即在训练过程中通过执行逐点权值缩放变换来对神经网络的权值进行调整,包括激活向前传播时的层内调整和梯度向后传播时的层间调整的两个阶段。大量的实验结果表明该归一化方法在各种数据集上能一致地提高各种神经网络结构的性能。(2)设计了修正的正交初始化方法。目前还没有关于深度卷积残差网络初始化时的信号传播和动力等距等问题的研究。本论文运用平均场理论、随机矩阵和自由概率等理论工具推导了深度卷积残差网络初始化时其特征图中激活的协方差矩阵的递推公式,发现该递推公式没有非0固定点;给出了深度卷积残差网络输出对输入Jacobian矩阵特征值密度分布的精确计算方法。渐近分析表明,深度卷积残差网络初始时要实现动力等距的必要条件为初始化必须与残差分支总数相关。基于这些理论分析和借鉴卷积的δ正交初始化,本论文设计了一种适用于深度卷积残差网络、与残差分支总数相关的初始化。通过大量实验验证了该初始化方法是有效的。(3)提出了具有动态动量和基础学习率的自适应梯度方法。最新研究发现Adam算法存在收敛性问题和泛化能力不如SGDM算法的问题。本论文分析了Adam类型算法中的基础学习率、动量系数和自适应学习率系数对于其动力学的复杂影响,借鉴Ada Bound的设计思想,设计了一种具有动态动量和基础学习率的自适应梯度方法。首次把训练过程中连续迭代梯度间的方向余弦距离和梯度的范数整合到Adam类型算法中用于调整这些系数,在训练后期控制这些系数光滑地切换到SGDM算法,从而提高了泛化能力。设计的算法同时具有Adam类型算法快速收敛性和SGDM算法泛化能力好等优点。通过多种机器学习任务的实验,验证了提出的方法性能超越Adam、Amsgrad和Ada Bound等算法。(4)设计了单调的策略优化算法。将深度神经网络等非线性逼近函数应用于强化学习所遇到的关键问题是,现有的许多强化学习的策略优化算法产生策略更新无法确保策略性能的单调提升,甚至出现严重退化。因此,本论文提出了一个新的关于策略改进的下界,即对状态空间上的策略发散度按平均的方式,而不是按最大的方式进行惩罚。直接对策略改进的下界进行优化非常困难,需要很高的计算开销。因此,本论文根据信任域策略优化的设计思想和利用广义优势函数估计对优势函数进行估计,基于新提出的策略改进下界,设计了一种单调策略优化算法,可以保证产生一系列单调的策略改进。大量实验验证了该策略优化算法的有效性。(5)进行了深度神经网络损失曲面实验探索。本论文对深度神经网络损失曲面进行了实验调查,包括:自适应优化算法的轨迹,轨迹处的损失函数Hessian矩阵和损失曲面的曲率,发现各种自适应优化算法的梯度方向几乎与损失曲面的排3位大的特征向量对应的特征方向垂直,而SGD算法的梯度方向却没有表现出这样的规律;沿Adan算法轨迹处的损失曲面Hessian矩阵几乎都是退化的,这说明很多理论研究中假设深度神经网络损失曲面Hessian矩阵非奇异是不合理的。(6)提出了基于权值缩放的神经网络集成方法。将集成的方法引入深度神经网络需要解决的关键问题是降低得到单个网络模型的训练开销,本论文利用局部极小值附近点对应网络模型间的多样性,基于Relu神经元的缩放不变性提出了一种新的深度神经网络集成方法,能以训练一个网络模型到收敛的计算开销可得到多个精确度和多样性都比较好的网络模型。大量实验结表明,在相同计算开销下,大多数情况本论文的SBE方法比目前流行的深度神经网络集成方法,如快照集成、快速几何集成等方法的性能要好。
其他文献
相比于雷达二维成像技术,雷达目标三维高分辨成像可以为雷达探测提供更丰富的目标信息,在遥感观测、目标识别等领域具有很大的应用价值。本文瞄准太赫兹三维成像在公共安全和
编者按:当“基因”这一词汇渐渐成为流行语时,颇有争议的转基因食品也走进了我们的生活,摆上了老百姓的餐桌。近年来,有关转基因食品是否对人体健康造成危害的争议日趋激烈,引起了全世界公众的高度关注。本期《百姓焦点》栏目让我们来了解一下“转基因食品到底是什么”、“吃了转基因食品会有什么后果”、“转基因食品该不该上市销售”这一系列的问题!    一、什么是转基因食品    稍有点科学常识的人都知道,基因是控
随着“美丽中国”、“公园城市”建设理念的提出,城市园林化建设的力度进一步加大,城市森林化、生态化及保持城市生态系统的和谐稳定逐步成为城市园林追求的目标。城市园林是
本文运用文献资料法、实验法对从事太极拳锻炼的老年人血脂含量进行测定,探讨太极拳对老年人健身作用的生理机制。结果表明:经过长时间太极拳锻炼的老年人整体血脂状况均有所
本文运用文献研究法、问卷调查法、数理统计等方法对少数民族大学生对体育锻炼态度进行研究,从心理学、文化学、社会学与民族学等视角,分析了少数民族大学生在体育锻炼行为态度
6月1日,杨瑞清在自己的办公室里接到一个国际长途电话:“最近蔬菜少得很,价格高得很,你们6月底之前能否过来举办一个展销会,把价格平抑一下?”  向杨瑞清发出邀请的,是与新疆接壤的哈萨克斯坦东哈州外经贸局局长乌拉力别克,在本国的蔬菜成熟之前,价格比中国新疆通常要高出好几倍,杨已经不是第一次接到这样的“求救”电话了。    边贸活跃,新疆蔬菜热销    杨瑞清是新疆阿勒泰地区对外贸易经济合作局局长。阿
目的研究应用斑点免疫金渗滤法(DIGFA)快速检测旋毛虫病患者血清抗旋毛虫IgG抗体.方法采用旋毛虫肌肉期幼虫膜抗原,以胶体金颗粒结合的羊抗人IgG为标记抗体,以颜色深浅为判断
著名寄生虫学家范秉真教授不幸于2008年9月2日在我国台湾逝世。噩耗传来,大陆寄生虫学界的同仁们无不为之惊愕、痛心。范老教授一生从事寄生虫学的研究与教学,成就殊然;大陆
运用文献研究法,对休闲体育的概念、特点、价值、内容与分类、发展的影响因素及发展前景和存在问题作了综述,认为我国休闲体育研究缺乏整体性和系统性;理论创新性和实质性不够;理
目的用干扰RNA的方法特异性降解阴道毛滴虫细胞过氧化物酶(Prx)和硫氧还蛋白还原酶(TrxR)的mR-NA,并观察其对虫体生长情况的影响.方法取患者阴道毛滴虫培养,用酚、氯仿法提取