关于深度学习中隐式正则化的研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:ekinhushuang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习由于其在模式识别、自然语言处理和强化学习等方面取得一系列突破性成果受到了越来越广泛的关注.最近研究表明深度学习中基于梯度的优化算法会执行某种隐式正则化,这种隐式正则化对深度学习模型的推广和成功起到了关键作用.基于这一观点,首先我们研究了影响隐式正则化的可能因素,并对这些因素如何影响模型最终泛化性能给出判断.其次,考虑到目前对于深度学习理论的研究都是基于随机梯度下降(SGD)算法,然而在实际应用中,也会运用到其他更复杂的优化算法,因此在随机梯度下降算法研究的基础上对经常使用的几种基于梯度的优化算法,如动量梯度下降、Adagrad以及Adam算法中的隐式正则化进行探究,并对不同算法的隐式正则化导致的泛化结果进行对比分析.首先,为了更好的理解深度学习中泛化与隐式正则化的关系,本文以图像分类任务为基准,对可能影响隐式正则化的因素进行猜想并进行了实验验证,我们主要考虑的因素包括模型中优化超参数,网络深度以及dropout正则化手段.对于优化超参数主要探究批量和学习率,我们发现在相同条件下批量越小,模型的泛化能力越强;具有较大初始学习率的SGD训练通常会比具有较小初始学习率的训练提高性能;最后我们探究了学习率和批量大小两者共同对深度学习中的泛化的作用,初步发现两者的比值是影响模型中隐式正则化效应的一个非常关键的因素,且在一定的超参数范围内,只要保证批量与学习率比值相同,模型就能达到相同的精度,当两者的比值越小,模型的泛化能力越强.对于网络深度,只要在模型的超参数设置达到最优时,网络深度并不是导致深度学习中隐式正则化的影响因素.令人惊讶的是,在使用dropout时会引入两个不同但相互关联的正则化效应,一个是显式效应,它发生在dropout修改预期的训练目标,以及一个额外的隐式效应,来自于dropout训练更新中的随机性,这种隐式正则化效应类似于小批量随机梯度下降中的随机性效应.其次考虑基于梯度优化算法的隐式正则化的数学表征.该问题是深度学习理论长期以来的研究课题,我们在向后误差分析理论的基础上,在一定条件的假设下,对多种基于梯度的优化算法中的隐式正则化进行理论推导;最后对比了不同优化算法中隐式正则化对与泛化的影响.通过将实验与理论结合,使得我们可以更直观,更具体的理解影响深度学习中隐式正则化的来源及影响因素.
其他文献
环论是代数学中一个重要分支.与此同时,环同态与导子是代数学研究的重要工具,二者都是加性映射.上世纪四十年代,学者们就已经开始关注加性条件对环同态与导子的影响程度了.自然地,一个直接的方法是在去掉加性条件后研究这两类映射,环同态与导子在去掉加性条件后分别被称为乘法同态与乘法导子.最初,Johnson研究了可逆的乘法同态在什么情况下满足加性条件.此后,Rickart,Martindale也分别研究了这
学位
基金窗口粉饰行为(Window Dressing)是指基金经理为了修饰基金报告中所披露的基金持仓信息,在报告期结束前对基金投资组合进行的调整。这种调整行为一般表现为买入前期表现较好的股票,卖出持仓中表现较差的股票,让投资者误以为基金一直持有这些股票,从而吸引投资者关注。基金窗口粉饰行为可能导致投资者错判基金经理管理能力而遭受损失,也会导致报告期前证券市场短期动荡。构建基金窗口粉饰识别模型,并深入分
学位
涡旋是流体团的旋转运动,是指一种半径很小的圆柱在静止流体中旋转,进而引起周围流体作圆周运动的流动现象.涡旋在大气动力学,流体动力学和天体力学等等领域有着重要的应用.点涡旋是涡旋问题中的一类重要问题,它是一类特殊的涡旋,其能量集中在涡旋中心.在二维理想流体中,被动粒子的运动方式可以由Hamilton系统来描述,其中流函数相当于Hamilton函数.在没有外部扰动的情况下,点涡系统中流体的被动粒子绕着
学位
时滞微分方程是一类特殊的泛函微分方程,可以描述运动规律既依赖于当前状态,也依赖于过去状态的自然现象,因此在电路信号系统、核物理学、流行病学和经济学等众多领域都有广泛的应用.长期以来,周期解的存在性与稳定性作为微分方程的基本问题,在理论研究和实际应用中都一直受到人们的普遍关注.本文考虑如下时滞微分方程εz(t)=-z(t)+f(z(t-1)),z(t)∈R,其中ε>0是小参数,f∈Ck(R,R)(k
学位
指数和也叫三角和,是指形(?)如的和式,其中x1,…,xk是某有界区域D(?)Rk中的整点,Rk为k维欧几里得空间,f(x),g(x)为实值函数,e(z)=e2πiz.指数和估计是解析数论中一个重要的研究问题,它有着广泛的应用.最简单的的指数和是一维指数和S=∑a<n≤be(f(n)),估计该和式的方法有很多.本文利用指数对理论估计一维指数和S,并研究了与除数函数d(n)相关的一类和的渐近行为.本
学位
逆积分因子是微分方程研究领域中重要且基本的概念,在微分方程的可积理论、分支理论以及平面系统的极限环等研究中一直都有重要作用,因此长期以来受到人们的广泛关注.本文考虑以下平面半拟齐次系统逆积分因子的存在性与解析可积性,其中(x,y)∈ R2,(Pk(x,y),Qk(x,y))(k=n,n+1,…,m)是指数为(s1,s2)的k阶拟齐次向量场.我们首先通过分析每个拟齐次向量场的逆积分因子,给出了平面半
学位
嵌段共聚物能够自组装形成介观尺度的有序结构,一直都是高分子领域的研究热点。然而,利用常规聚合方法制备的聚合物具有一定的分子量分布。理论和实验结果均表明,链长的不均一性会对嵌段共聚物的自组装行为产生重要影响。因此,构建精确大分子体系,排除链长不均一性带来的干扰,是深入研究自组装行为的内在需求。针对这一问题,本论文设计并合成了一系列具有精确化学结构和均一链长的离散型ABA三嵌段共聚物,实现对聚合物的组
学位
曲面屏幕拥有更广视觉等优势,近年来在手机等手持设备领域的应用日益广泛。在曲面屏幕生产过程的屏幕贴合步骤中,透明黏弹体(TVM,Transparent Viscoelastic Material)起着至关重要的作用。用于屏幕弯曲位置的TVM的流动性不足、韧性耐冲击性较弱,并且在实际加工过程中容易产生气泡,导致良品率较低,成本居高不下。因此,急迫需要改善透明黏弹体的性能以达到提高良品率降低成本的目的。
学位
在材料科学领域中,分子模拟已经发展成为继理论和实验之后的第三种重要的研究方法。随着研究体系的愈加复杂,如何开发更高效的模拟程序成为了分子模拟科研工作者共同关注的一个热点问题。得益于计算机图形处理器(GPU)性能的不断提升以及相关硬件架构的日趋完善,将原先的CPU串行算法拓展为GPU并行算法,成为了一种显著提高程序计算效率的有效方法。近年来,国内外涌现了许多基于GPU加速的分子动力学(MD)方法的软
学位
光子晶体最引人注目的应用之一,是在不消耗更多能量的情况下提高光源明亮度。因此,具有白光反射谱的光子晶体将可用于白光照明设备,如发光二极管(LED)和有机发光二极管(OLED)。考虑到光子晶体在可见光波长范围内广泛的应用场景,在此波段中精准控制反射带的能力对许多实际应用是十分有意义的。在众多反射场景中,多个反射带坐落于特定波长所形成的“多反射带”图案极具吸引力。该图案能够同时反射多种颜色,从而可能混
学位