神经网络泛化提升及训练加速的方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:a6443064
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习在包括自然语言处理,语音识别,计算机视觉,计划和决策在内的各种挑战性领域中均取得了非常好的成绩。这些成就的获得离不开神经网络的发展,以及充足的算力、新颖的优化技术和各种数据集的支持。随着深度学习的发展,人们认识到在任务上取得最先进表现的一个关键要素是在越来越大的数据集上构建更大的模型。在深度神经网络的训练中,人们希望通过一个快速收敛的优化过程,来得到一个具有良好泛化能力的模型。然而,与浅层神经网络相比,更深/更宽的神经网络模型的优化存在许多问题,例如梯度消失/爆炸,模型退化和过度拟合等。这些问题将会阻碍训练的收敛并削弱训练模型的泛化性能。尽管已经有许多研究试图解释和解决神经网络训练中出现的各种问题。但是这些研究中的大多数,无论是在其研究视野还是在其所得结论上,都是只针对于优化过程的某个阶段或者某种特定的网络结构,因而缺乏一般性和通用性。针对这方面的不足,本文开展对神经网络的优化过程和泛化能力的研究,致力于得到与加速网络训练和提升泛化能力相关的通用且本质的数学特征(numerical characteristics)。并尝试基于这些数学特征设计出能够加速网络训练和提升泛化能力的通用技术。在研究与模型泛化能力相关的数学特征方面:(1)本文首先结合了随机游走的概念,研究了优化过程中的扰动对模型泛化能力的影响。本文使用模型在测试数据集De上的损失值LDe与训练数据集Ds上的损失值LDs之间的差值,来衡量模型在训练集和测试集之间的泛化差距gDe,Ds=LDe-LDs(generalizationgap)。通过理论分析,本文给出了模型在训练过程中,泛化差距的变化量△gDe.Ds的一个上下界B[|△gDe,Ds|],该上下界与梯度噪声相对于梯度的比例有关。本文进一步提出了泛化遗憾率(generalization regretratio)的概念,泛化遗憾率定义为模型的泛化差距的变化量△gDe,Ds与训练集上的经验损失值减少量-△LDs的比值-△gDe,Ds/△LDs,它可以衡量训练过程中泛化能力的变化。由于泛化理论的核心目的,是在保证模型在训练集上具有良好表现的前提下,尽量缩小模型在训练集和测试集之间的表现的差距。传统的△gDe,Ds忽略了模型在训练集上的表现而仅考虑泛化差距,因而不能衡量模型在训练集上的性能。相比较而言,泛化遗憾率-△gDe,Ds/△LDs考虑了模型在训练集上表现因而更能反映训练过程中泛化能力的变化。在此基础上,本文给出了泛化遗憾率的的上下界B[|-△gDe,Ds/△LDs|]。由于本文给出的这些上下界仅与训练集有关,因此在训练过程中,通过这些上下界,可以很方便地只利用训练集即可评估模型的泛化能力的变化。(2)本文研究了模型训练至驻点时与其泛化能力有关的数学特征。高斯混合模型(Gaussian Mixture Model,GMM)p(v|θ)=∑l=1k πipi(v|θi)=∑l=1k πiN(v|μi,∑i)是由多个高斯分布pi(v|θi)=N(u|μi,∑i)依照比例系数πi叠加而成的,其中θ={πi,μi,∑i}是高斯混合模型的参数,而{μi,∑i}是各个高斯分量的形状参数。由于高斯混合模型相较于神经网络更具解释性,而且高斯混合模型与神经网络无论是在原理上还是优化动力特性上都非常相似。因此,本文通过将数据分布假设为参数为θ的高斯混合模型p(v|θ),并将神经网络的优化类比成高斯混合模型p(v|θ)的参数推断,来解释当模型训练至驻点时扰动对模型泛化的影响。为了简化讨论,本文进一步假设各分量对损失函数L的影响相互独立,亦即:L(D;θ)=-∑iCi(Di;μi,∑i)πi,其中Di表示属于分量pi(v|θi)的数据。结合前面泛化差距的定义,本文使用gpi,v来表示,通过数据分布中的单个高斯分量pi采样得到的样本,来估计该个高斯分量的形状参数θi={μi,∑i}的估计误差。在数据分布为高斯混合模型时,本文给出了单个高斯分量的形状参数估计误差的方差Varpi(v)[gi,v]的一个下界LB[Var[gpi,v]]。该下界与分量pi(v|θi)的权重πi无关,而只与损失值函数的具体形式以及数据分布的结构有关。接下来,本文给出了模型在驻点时损失值估计误差(亦即是泛化差距)的方差Var p(D)[gp,D(θ)]的下界与各个数据分量的LB[Var[gpi,v]之间的关系:∑iδi/nLB[Var[gpi,v]](?)Varp(D)[gp,D(θ)]。在这个关系式中,当δi取0时表示模型中没有分量拟合数据分量pi,当δi取1时表示模型中有分量拟合了数据分量pi。结合该关系式与前面的假设L(D;θ)=-∑iCi(Di;μi,∑i)πi,可以知道,模型中权重较小的分量尽管对loss的贡献不大,但是对于泛化误差的贡献却可能与大分量一样大。本文进一步讨论了下界LB[Var[gpi,v]]与数据分布的结构之间的具体关系,发现数据分布中越高频的结构分量(区别于单个高斯分量,结构分量是由一组高斯分量叠加而成的),它的LB[Var[gpi,v]]之和越大。对于其他关于数据的估计子,如随机梯度等,它们的估计误差与数据分布的结构之间也具有类似的关系。综合而言,模型中不同结构分量对泛化误差的下界的贡献与结构分量本身的权重无关,而与该结构分量所拟合的数据分布中的结构分量的频率有关。基于该思想,我们在第6章提出了 Tango Loss正则化算法。在研究与加速模型训练相关的数学特征方面:(1)本文从优化动力学对于扰动的鲁棒性的角度出发,研究了内部协变量偏移现象(Internal Covariate Shift,ICS)对优化过程的影响机制。本文通过理论分析与相关实验,揭示了消除内部协变量偏移与加速网络优化之间没有直接的联系,而且内部协变量偏移也并不能全面地描述参数扰动对优化动力学的影响。这驳斥了主流的“消除内部协变量偏移能加速训练”这一观点。(2)根据内部协变量偏移的不足,本文提出了能够更全面地描述参数扰动对优化动力学的影响的内部梯度分布偏移(Internal Gradient Distribution Shift,IGDS)。为了能够定量地讨论内部梯度分布偏移对优化的影响,本文基于最优传输距离(Wassersteindistance),通过梯度分布变化与参数扰动的比率(theratio of the gradient distribution variation to parameter’s disturbance,GDDR)来作为指标来衡量内部梯度分布偏移的程度。基于GDDR指标衍生出了局部β光滑度(localβ-smoothness)指标,本文研究了内部梯度分布偏移对网络训练影响。理论分析的结果一方面表明,内部梯度分布偏移的程度越小,意味着更加平缓的损失函数曲面。而平缓的损失函数曲面允许模型在优化过程中保持较大的学习率,这可以加速优化。另一方面表明,可以让局部β光滑度较大的层具有较小的更新步幅,能够使得优化过程沿着更平缓的方向进行,这在加速优化的同时可使得优化更加稳定。基于前面提出的这些数学特征,本文提出了一系列用于加速网络训练和提升泛化能力的算法:(1)通过分析所提出的与模型训练相关的数学特征,可以发现,让模型中相邻的两个训练步之间真实梯度差异较小的而且梯度噪声较小的层具有较大的更新步幅,能够在提高训练速度的同时降低训练过程中的泛化遗憾率。基于这一思想,本文提出了一种基于数学特征的分层自适应学习率算法(layer-wise adaptive learning rate based on numerical characteristics,LANC)。通过理论分析与在常用数据集上的实验验证,本文展示了 LANC算法是一种能够加速模型训练同时提高模型的泛化能力的优化算法。(2)通过分析所提出的与泛化相关的数学特征,可以发现,由于高频的数据结构分量在损失值L中所占的权重一般较小,却对泛化误差的贡献很大,因此抑制模型对于高频的数据结构分量的拟合,能够有效提升模型的泛化能力。基于该思想,本文提出了带有与泛化误差成正相关的惩罚项的探戈损失函数(Tango Loss)。在模型拟合对泛化误差贡献大的数据结构分量时,探戈损失函数能够对模型施加更加大的惩罚。通过理论分析与实验验证,本文证实了探戈损失函数是一种能够显著提升泛化能力并且减少计算量的正则方法。这些算法成功地验证了本文提出的数学特征在指导如何加速网络训练和提升泛化能力方面的有效性与通用性。本文给出的数学特征与优化技术将有助于人们研究和训练神经网络,对于深度学习的发展和应用具有一定的意义。
其他文献
随着计算机速度的提升以及数据储存越来越便捷,立体视觉测量系统被广泛地开发、应用于各工程领域。非接触式双目立体视觉测量方法与传统测量方法相比,具有多测点、高精度等优势。图像关键信息的提取及匹配是联系二维图像和三维世界的纽带。本文为了准确获取图像中的信息,提出了一种结构直线特征的提取及匹配方法,为了提高立体视觉系统数据采集的准确性,针对该技术中数据采集问题进行了研究。本文研究的主要内容概括如下:(1)
学位
活性粉末混凝土(reactive powder concrete)是一种高性能水泥基复合材料,具有高强度、高耐久性和高强重比的优点,但是RPC结构构件存在脆性破坏模式。因此,将RPC浇筑于钢管内,形式钢管RPC组合结构,可有效利用RPC高强度,提高其变形能力与承载力,是提升结构性能的有效方法。目前,国内外学者对钢管RPC柱的研究主要集中在轴压和偏压性能方面,对压弯滞回性能和抗震性能的研究尚不系统,
学位
目的:本研究选取糖尿病前期状态人群中符合痰证标准的患者以及健康志愿者作为研究对象,分析糖尿病前期痰证患者的证素兼杂特点,并比较二者的肠道菌群差异,分析肠道菌群与痰证之间的关系,探究肠道菌群在糖尿病前期痰证的发生、发展过程中可能存在的作用。方法:纳入34名糖尿病前期痰证患者为痰证组及37名健康志愿者为正常组,收集四诊信息及粪便标本,对其粪便提取基因组DNA,应用菌属16Sr DNA序列特异性引物,进
学位
语文“跨学科学习”,实际上是以语文作为核心学科和基础,联结课堂内外、学校内外,拓宽语文学习和运用领域,让语文学科中最常见的听、说、读、写四类活动成为学习的基本活动方式,同时根据需要,融合、引入各学科知识、技能、实践活动的学习类型。在具体实施过程中,可以分为课内与课外两个系统。课内教学系统中,要理解目标,将其转化为层级型学习任务;构建“学习活动链”,促成各学科的互助链接;嵌入评价,促进学习成果的充分
期刊
近年来,世界各地地震灾害频发,大量历史资料表明,在一次主震发生之后,余震也会对建筑物造成破坏,并导致人员伤亡。此外,余震的发生也会对主震后的人员救援安置,建筑物的维修加固等工作造成影响。因此,在主震发生之后,对余震危险性进行评估是非常有必要的。本文的主要研究内容如下:(1)在主震发生之后,余震的发生往往带有聚集的特征,主震及其之后的余震组成了地震丛集。本文基于中国川滇地区、意大利东北部及斯洛文尼亚
学位
报纸
目的:通过观察非酒精性脂肪性肝病(non-alcoholic fatty 1iver disease,NAFLD)患者中医证型与甲状腺激素(thyroid hormone,TH)水平之间存在的关联性,了解NAFLD不同中医证型TH水平的分布差异,探讨TH水平和NAFLD病情严重程度的相关性,以期提高中医辨证的准确性,丰富NAFLD中医辨证分型的客观化指标。方法:选取2019年12月至2022年01
学位
目的:观察益气养阴降毒汤治疗气阴两虚夹瘀型糖尿病肾脏病G1A2期患者的临床疗效及安全性。方法:将符合本研究纳入标准的62例气阴两虚夹瘀型糖尿病肾脏病G1A2期患者随机分为对照组31例,试验组31例。对照组给予控制血糖、血压、血脂等基础治疗,试验组在基础治疗的同时口服益气养阴降毒汤,2组疗程均为8周,观察2组治疗前后尿白蛋白/肌酐比值(UACR)、血肌酐(Scr)、估算的肾小球滤过率(e GFR)、
学位
碟形弹簧通过不同组合可灵活实现自复位支撑所需的复位力和变形能力。现有碟簧自复位防屈曲支撑端部常采用刚接构造,支撑因额外受弯而使其受力性能复杂化,而对利于实现支撑轴心受力的端部铰接的构造和受力性能的探索较少。且目前对组合碟簧的摩擦效应研究不足,导致无法准确掌握考虑摩擦效应的组合碟簧的真实受力特性。针对上述问题,本文构建了端部铰接和刚接的组合碟簧自复位防屈曲支撑(DSBRB),结合拟静力试验和数值模拟
学位
目的:通过观察清热愈瘅汤治疗肝胃郁热证胃食管反流病患者的疗效,并分析中医证候积分变化,评估其治疗肝胃郁热证胃食管反流病的安全性和有效性,以丰富胃食管反流病的治疗手段,并进一步推广中医药治疗,为临床治疗提供参考新的思路和方法。方法:将76例肝胃郁热证胃食管反流病患者随机分为试验组和对照组,最终完成病例数70例,每组35例。试验组服用清热愈瘅汤,对照组服用雷贝拉唑钠肠溶胶囊,疗程8周。统计分析两组治疗
学位