非凸随机设定下两类RMSProp算法的收敛性

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:gsqj123465
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,得益于计算机编程语言,显卡并行处理以及多线程处理机制等功能的快速发展,深度学习技术的有效性得到了大量的实验论证.深度学习在我们的生活中应用十分广泛,例如语音识别,计算机视觉和自然语言处理等.对于一个确定的深度学习任务,优化算法是否有效将是深度学习结果好坏的决定性因素.目前,自适应梯度算法是最受欢迎的一类优化算法,其中最具代表的有AdaGrad,RMSProp和Adam.在实际实验中,当网络变复杂时,目标函数将无法保持凸性,因此分析自适应梯度算法在非凸情况下的收敛性具有较大的价值和意义.本文首先给出了RMSProp的一个等价算法,并对其收敛性进行分析.为了保证其收敛,我们引入了一个易于检验的充分条件,这个条件仅仅依赖于基础学习率的参数和历史二阶距的线性组合.接下来将RMSProp算法推广到更一般的情况,得到一个更一般的RMSProp算法,此算法仍是一个自适应梯度算法.继而分析这一算法的收敛情况,并类比地给出了更一般算法收敛的一个充分条件.最后通过数值实验,比较一般的RMSProp和RMSProp在相同数据集和网络结构下的准确率和损失.
其他文献
在本文中,我们研究了特征零域F上的有限维马尔切夫代数的O-算子和经典杨-巴斯特方程的反对称解之间的联系.我们证明了一个马尔切夫代数上经典杨巴斯特方程的一个反对称解可以被解释为是一个与余伴随表示相关的O-算子.当考虑非退化的反对称解时,我们证明了这种关系可以用辛形式加强.我们也证明了关于一般表示的O-算子可以给出某些半直积马尔切夫代数上的经典杨巴斯特方程的反对称解.我们揭示了一个马尔切夫代数上可逆O
多项式的稀疏插值不仅在计算数学领域上有着重要意义,同时在实际应用中也很重要.本文讨论了一元多项式稀疏插值问题,讨论了插值条件有噪声的情况下,稀疏多项式的系数和各项次数的恢复问题.在本文中,我们将多项式稀疏插值问题看作一个指数分析问题,在此基础上,把文献中Sub-Nyquist指数分析方法应用于多项式稀疏插值问题.在数值算例中,我们与当前文献中广为接受的一个多项式稀疏插值算法进行了比较,实验结果表明
随机梯度方法是一种求解大规模优化问题简单高效的方法,在机器学习和深度学习中得到了广泛的应用。然而,与新算法层出不穷的现象所不相符的是,关于随机梯度方法的理论发展却举步维艰。目前对于随机梯度方法的收敛性分析,大多数是建立在随机梯度是目标函数梯度无偏估计的基础之上,而这一条件在实际应用中往往是无法轻易满足的。另一方面,大多数理论分析中关于算法选择的步长,都是满足由Robbin和Monro所提出条件的递
老旧社区是我国基层治理现代化转型中的一大难题。集体危害品累积与碎片化的治理格局、复杂产权结构与群体利益分化以及传统思维模式与现代公共服务需求之间的矛盾,共同构成老旧社区治理的复杂情境。Y市D社区通过发挥党建引领作用、整合社区治理结构、设立多元自治组织激活社区公共精神、创建家庭文明诚信档案制度等,将自治、法治、德治相融合,逐步摆脱老旧社区治理掣肘,打造出一种政党整合型的现代熟人社区治理模式。现代熟人
本文研究了概率图模型的最优匹配问题,提出了一种在给定数据样本的条件下选取此样本的最优模型的新方法.利用计算代数的工具,通过寻找toric想的生成元,将Markov链上的移动的集合,即Markov基的求解过程转化为代数形式.再利用给定概率分布下的Metropolis-Hastings算法,得到一组在连通的,非周期的,可逆的以及平稳的Markov链上移动的数据样本.本文基于概率图模型,综合考量了Met
本文对于具有Neumann边界条件的非线性对流扩散方程,设计全隐迎风有限差分离散格式及其非线性迭代求解方法,并对它们的基本性质进行分析,以实现问题的高效高保真求解.从一维模型出发,在非均匀网格上,在对流占优的情况下,构造了二阶时间精度的全隐迎风有限差分离散格式,以避免出现非物理的数值振荡和数值弥散,实现对物理量瞬变问题的精准模拟.并设计了与非线性迎风差分格式匹配的Picard迭代方法,来实现非线性
最优化问题是计算数学中最为重要的研究方向之一。而在深度学习领域,优化算法的选择也是一个模型的重中之重。即使在数据集和模型架构完全相同的情况下,采用不同的优化算法,也很可能导致截然不同的训练效果。随机梯度下降算法(SGD)在神经网络模型训练中是一种很常见的优化算法,然而,SGD算法的高方差振荡使得网络很难稳定收敛。拟双曲动量算法(QHM)是基于动量的SGD的一种简单的变换,其更新可以看作动量项与SG
针对一类描述化学传感器中离子浓度的具有非线性跳跃条件的抛物型界面问题,本文提出多种优化施瓦兹(波形松弛)方法计算方案.这是一种时空整体求解方案,将求解区域(1,1)×(0,T]分解为(1,0)×(0,T]和(0,1)×(0,T],并将整体异性介质问题转化为子区域上的单一介质问题的组合进行迭代求解.本文通过设计界面上的传输条件,实现以下两个目的:1.将整体非线性问题转化为线性子问题求解;2.区域分解
在用列联表描述分类变量之间的关系时,结构零作为数据的一种特性或数据结构的一种推论,致使不完备列联表在很多实际问题中重复出现.对不完备列联表拟独立模型进行精确检验时,Monte Carlo方法作为有效估计p-值的一种方法,计算Markov基尤为重要.本文从代数角度和Markov基的结构两个方面讨论求解Markov基的方法,我们利用Markov基的结构对Markov基中冗余移动进行约简,特别的,当mi
本文主要研究各向异性扩散问题三种Q1有限体积元格式的强制性,分别为基于梯形公式的Q1有限体积元格式,基于中点公式的Q1有限体积元格式和基于辛普森公式的Q1有限体积元格式。针对基于梯形公式的Q1有限体积元格式,采用了两种方式分析其强制性。第一种分析方式是通过单元刚度矩阵合同于一个3×3矩阵得到了这个矩阵正定的一个充要条件,进而得到确保这个格式强制性的一个充分条件。第二种分析方式是根据格式的单元双线性