【摘 要】
:
最优化问题是计算数学中最为重要的研究方向之一。而在深度学习领域,优化算法的选择也是一个模型的重中之重。即使在数据集和模型架构完全相同的情况下,采用不同的优化算法,也很可能导致截然不同的训练效果。随机梯度下降算法(SGD)在神经网络模型训练中是一种很常见的优化算法,然而,SGD算法的高方差振荡使得网络很难稳定收敛。拟双曲动量算法(QHM)是基于动量的SGD的一种简单的变换,其更新可以看作动量项与SG
论文部分内容阅读
最优化问题是计算数学中最为重要的研究方向之一。而在深度学习领域,优化算法的选择也是一个模型的重中之重。即使在数据集和模型架构完全相同的情况下,采用不同的优化算法,也很可能导致截然不同的训练效果。随机梯度下降算法(SGD)在神经网络模型训练中是一种很常见的优化算法,然而,SGD算法的高方差振荡使得网络很难稳定收敛。拟双曲动量算法(QHM)是基于动量的SGD的一种简单的变换,其更新可以看作动量项与SGD更新的加权平均,该算法对于减小方差具有很好的效果。然而,目前仅在强凸条件下对QHM算法收敛性进行了分析。但在实际应用中,目标函数往往非凸,因此QHM算法在非凸情况下的收敛性分析就有了其理论价值和现实意义。将离散随机系统近似为确定的连续随机系统是ODE方法的思想,本文将基于ODE方法,在目标函数可微且非凸的条件下,给出离散随机优化算法SGD和QHM的收敛性分析。我们首先引入了 SGD算法的一个连续时间版本,其形式为一个常微分方程。其次,我们证明了该常微分方程解的存在性和唯一性,以及该解收敛到目标函数的临界点。接下来,确定了由SGD迭代得到的插值过程弱收敛到相应常微分方程的解。最后,得到了 SGD迭代到目标函数临界点的长期收敛性。对于QHM算法,我们经过同样的步骤进行收敛性分析。与SGD算法相同,引入了 QHM算法的连续时间版本,得到了更加复杂的常微分方程。我们确定了该方程解的存在性、唯一性以及到目标函数临界点的收敛性。在确定了 QHM迭代相应的插值过程弱收敛到其常微分方程解的基础上,得到了 QHM迭代到目标函数临界点的收敛性。
其他文献
本文主要在2n+4维紧致带边旋流形上计算了低维体积(?),得到了相应的Kastler-Kalau-Walze类型定理.作为推论,我们对2n+4维带边流形上的Einstein Hilbert重力作用给出了简单的算子理论解释.
本文研究了有限域上一类二次矩阵方程的解,特别地,得到了其基数的公式,并且证明了在一般线性群的自然共轭作用下,这些解的轨道可以用特征多项式定义的经典共轭不变量来分离.本文还找到了这些轨道消去理想的生成集.最后,得到了有限域中另一类三次矩阵方程的解的个数公式.
本文主要研究了三维Minkowski空间中的Bertrand曲线.通过考虑两条曲线的主法线之间的夹角为,我们定义了三维Minkowski空间中广义的类光Bertrand曲线和广义的非类光Bertrand曲线,并且给出一条曲线是广义的类光Bertrand曲线和广义的非类光Bertrand曲线的充要条件.此外,我们研究了广义的类光Bertrand曲线在一点的邻近结构.作为广义Bertrand曲线的应用
多项式最大公因子的计算是计算数学领域中最基本的问题之一.在实际应用中,很多问题都涉及到了多项式最大公因子的求解.因此,建立最大公因子的有效算法具有重要意义.本文考虑了系数有噪声的两个多元多项式的近似最大公因子的计算问题,把文献中一元多项式最大公因子的子空间算法推广到了多元多项式,针对一类特殊的多元多项式最大公因子建立了一个子空间算法.首先,对这类多元多项式最大公因子揭示了与一元多项式情形相似的性质
在本文中,我们研究了特征零域F上的有限维马尔切夫代数的O-算子和经典杨-巴斯特方程的反对称解之间的联系.我们证明了一个马尔切夫代数上经典杨巴斯特方程的一个反对称解可以被解释为是一个与余伴随表示相关的O-算子.当考虑非退化的反对称解时,我们证明了这种关系可以用辛形式加强.我们也证明了关于一般表示的O-算子可以给出某些半直积马尔切夫代数上的经典杨巴斯特方程的反对称解.我们揭示了一个马尔切夫代数上可逆O
多项式的稀疏插值不仅在计算数学领域上有着重要意义,同时在实际应用中也很重要.本文讨论了一元多项式稀疏插值问题,讨论了插值条件有噪声的情况下,稀疏多项式的系数和各项次数的恢复问题.在本文中,我们将多项式稀疏插值问题看作一个指数分析问题,在此基础上,把文献中Sub-Nyquist指数分析方法应用于多项式稀疏插值问题.在数值算例中,我们与当前文献中广为接受的一个多项式稀疏插值算法进行了比较,实验结果表明
随机梯度方法是一种求解大规模优化问题简单高效的方法,在机器学习和深度学习中得到了广泛的应用。然而,与新算法层出不穷的现象所不相符的是,关于随机梯度方法的理论发展却举步维艰。目前对于随机梯度方法的收敛性分析,大多数是建立在随机梯度是目标函数梯度无偏估计的基础之上,而这一条件在实际应用中往往是无法轻易满足的。另一方面,大多数理论分析中关于算法选择的步长,都是满足由Robbin和Monro所提出条件的递
老旧社区是我国基层治理现代化转型中的一大难题。集体危害品累积与碎片化的治理格局、复杂产权结构与群体利益分化以及传统思维模式与现代公共服务需求之间的矛盾,共同构成老旧社区治理的复杂情境。Y市D社区通过发挥党建引领作用、整合社区治理结构、设立多元自治组织激活社区公共精神、创建家庭文明诚信档案制度等,将自治、法治、德治相融合,逐步摆脱老旧社区治理掣肘,打造出一种政党整合型的现代熟人社区治理模式。现代熟人
本文研究了概率图模型的最优匹配问题,提出了一种在给定数据样本的条件下选取此样本的最优模型的新方法.利用计算代数的工具,通过寻找toric想的生成元,将Markov链上的移动的集合,即Markov基的求解过程转化为代数形式.再利用给定概率分布下的Metropolis-Hastings算法,得到一组在连通的,非周期的,可逆的以及平稳的Markov链上移动的数据样本.本文基于概率图模型,综合考量了Met
本文对于具有Neumann边界条件的非线性对流扩散方程,设计全隐迎风有限差分离散格式及其非线性迭代求解方法,并对它们的基本性质进行分析,以实现问题的高效高保真求解.从一维模型出发,在非均匀网格上,在对流占优的情况下,构造了二阶时间精度的全隐迎风有限差分离散格式,以避免出现非物理的数值振荡和数值弥散,实现对物理量瞬变问题的精准模拟.并设计了与非线性迎风差分格式匹配的Picard迭代方法,来实现非线性