梯度下降算法中的动态采样方法研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:lionschen2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
前馈型神经网络的求解大多属于非线性非凸优化问题,神经网络算法的日益流行使得在优化领域非线性非凸问题的求解问题研究变的更加重要。梯度下降算法是前馈型神经网络最常见的求解算法。即使在如今深度学习盛行的年代,该方法依然被用于深度神经网络的训练。算法简单、有效、易实现,但也面临一些缺点,比如易陷入局部极小、求解过程缓慢且不稳定。在本篇论文中,我们以梯度下降算法为基础,提出一种动态随机采样的梯度下降的方法,并从理论上证明该方法可以保证解的稳定性,并通过实验也验证理论结论。本文采用的是动态采样的方法,目的是实现真正梯度的一种无偏估计逼近来代替梯度,避免随机梯度产生的噪音影响。利用梯度估计来代替真实梯度虽然可以减少求解过程的计算量,但是由于梯度估计存在方差,也就导致了一定的不精确性。相比于随机梯度下降方法和小批量随机梯度下降方法,采用这种方法不仅可以减少求解过程的计算量,而且随着迭代次数的增加,动态采样算法的梯度估计也越来越稳定,梯度估计的方差最终会收敛到零。本文证明了该方法在求解非线性非凸优化问题时具有次线性收敛性。这种方法本质上就是减少了每次迭代时梯度估计的方差,从而加速算法的收敛,减少了迭代次数。相比于方差削减算法SVRG,本文的算法具有更快的前期收敛速度和更高的后期收敛精度。最后的实验部分给出了改进的动态采样算法在收敛速度,运行时间以及计算精度的表现。在一些常见数据集上的模拟实验证明了本文方法的有效性。
其他文献
学校文化是指一个学校在长期办学过程中形成的,并为其成员认可而共同遵循的思想观念、价值取向和行为方式。它的核心是学校具有特色的价值观念、判断、取向、引导,它们产生于学
报纸
世界众多权威机构提供的研究报告显示,温度在12℃-38℃之间,相对湿度在60%RH以上,是霉菌滋生的最好条件。全世界处于温带和热带的国家和地区最多,而且是人口集中、经济发达的
目的研究长柄扁桃种仁水煎液对高脂模型大鼠血脂和肝功能的影响。方法检测大鼠血清总胆固醇(TC)、甘油三酯(TG)、高密度脂蛋白胆固醇(HDL-C)、低密度脂蛋白胆固醇(LDL-C)、超
美声唱法是一种西方的歌唱形式,传入我国已有多年,并受到广泛欢迎,成为我国不可或缺的歌唱形式。我国的歌曲多采用汉语为标准,但美声唱法对汉语歌曲演唱常常在字头、字尾和声
经济全球化已经成为一个不可否认的事实,其对各个领域所产生的影响都是前所未有的,然而在法律领域,国际经济法是受其影响最为深刻的一个法律部门。文章从经济全球化对国际经济法
40年来的中日关系既有20世纪70、80年代的战略合作期,也有90年代政冷经热的平和期,虽然两国关系的主流是积极的,但其间多有波折反复,偶因突发事件导致两国关系出现所谓“冰冻期”
农村产业结构调整后形成了新的产业格局。临汾市的农业生产由于受粮食价格滑坡、生产资料价格上扬等因素影响,生产经营效益较差,劳动力逐步向林果、蔬菜、畜牧和服务业以及民企
<正>2018年5月3日,美国著名物理学家大卫·派因斯(图1)不幸辞世,终年94岁。有一套非常受欢迎的物理学丛书,叫作《物理学前沿》(Frontiers in Physics),从1961年一直出到现在,
采用文献资料法对我国一直争论不下的"体育"的概念及使用等问题作了一些简单的论述,对杨文轩和陈琦在<体育原理导论>等书中关于体育概念的论述作了讨论,结合语言学及哲学上关
<正> (一) 技术创新是一种活动及其结果的发生过程。它是在一定环境条件下,人类主观能动性的表现;是人运用已获得的知识(理论的或经验的信息)及已掌握的技术(或方法),向着某