Relu网络的一种新型自适应优化方法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:dragon_3628
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度神经网络已成为计算机视觉及人工智能领域的研究重点。目前,在图像分类、语义分割等任务中,已有相关研究通过使用不同结构的人工神经网络获得了良好的表现。然而,在训练过程中,一些超参数的选择,如学习率,会对模型的精度产生较大影响,较大的学习率会使模型很难收敛而较小的学习率又会导致训练耗费较长时间。在继往的研究中,学习率的选择往往依赖经验,使得训练效率下降。同时,在优化神经网络时往往使用反向传播算法使梯度由后向前逐层传递,但由于梯度在传递时采用链式法则连乘获得,如若发生损失函数在位于梯度变化较大的“悬崖”区域求梯度,或者某一层网络初始化较差而导致激活函数对梯度信息出现截断等现象,梯度信息将无法稳定传递并且可能导致出现梯度消失或梯度爆炸现象,最终导致训练失败。因此,本文受神经科学中神经元激活模式启发,通过分析ReLU激活函数的数学性质以及网络权值的更新方式,提出了一种基于ReLU激活函数且不依赖于反向传播算法的神经网络自适应学习率优化算法。该方法可以根据网络每一层的权值状态寻找适合该层的最优学习率,并不依赖反向传播算法独立更新该层权值,在不需要手动设置学习率的前提下保证算法精度,进而提高优化效率。并且,该方法还能避免出现由于梯度信息无法传递导致的训练失败,对于个数少维度高的样本具有优于随机梯度下降以及目标差传播算法的收敛速度。最后,本文通过实验验证所提出算法的性能。本文的具体工作如下:第一,本文通过分析采用ReLU函数作为激活函数的神经网络的逐层结构,提出一种基于目标传播的新型权值更新方法。该方法可以将多层嵌套的神经网络拆解,借助所训练的“近似逆映射”逐层以目标值传递形式将误差信息传回每一层网络,由此实现不依赖反向传播的神经网络更新,避免了由于梯度信息传递异常导致的训练失败。第二,在每层神经元更新过程中,神经元的更新方向与步长可通过计算该层神经网络输出值与目标值的MSE损失自适应获得。由于此MSE损失为凸函数,借助凸优化方法我们可以解析得出该层网络的最优学习率。通过使用此学习率进行训练可以加快收敛速度并降低人工调参成本。第三,由于最优学习率的计算依赖该层神经元的权值状态以及该层输入值的规模,当神经元个数以及输入规模较大时,计算最优学习率需要耗费一定算力。针对此问题本文提出两种加速算法,即线搜索方法以及批(batch)方法用以加速训练。实验表明本文提出的加速算法具有良好的精度及收敛速度。第四,本文分析了所提出优化算法的复杂度。通过分析复杂度可知此算法收敛速度为O(1/r),而最大不会超过O(m)。其中r为平均学习率而m为样本个数。实验表明,此方法对于样本量较少的数据优于传统反向传播算法,对于样本较多的数据,使用加速算法仍可得到不差于传统反向传播算法的表现。
其他文献
风电在电网中比重不断提高,并网型风力发电机组的良好稳定运行对于电网至关重要。变速恒频风力发电技术,尤其是双馈式风力发电技术以其独特的优势而受到关注。本文分析研究了
精细化学品广泛应用于国民经济各行各业,起到提高质量、节能、降耗、增加产量、改善和提高人民生活等重要作用,是当今世界各国竞相发展的重点和热点。本文主要合成了三类杂环
温度的测量和控制技术被广泛应用于如工业生产、航空航天、气象预警、石油钻探和输送等各个领域中,其中低温技术(273.16K以下)又与世界上许多尖端科学研究领域密不可分,如超
中华民族在创造灿烂文化历史的过程中,构建了诚信守义的优良传统,将其作为修身齐家处世治国的必备美德。诚信是人类社会普遍的道德要求,是社会健康发展的重要基石,更是社会主义事业的建设者和接班人的基本素质要求。党的十八大报告第一次将诚信纳入社会主义核心价值观,明确将“诚信”作为个人层面的价值目标提出,具有重大的理论和现实意义。爱国、敬业、诚信、友善作为社会主义的道德准则,同时体现了社会主义的价值原则,倡导
目的:通过将目标导向液体治疗(Goal-Directed Fluid Therapy,GDFT)联合右美托咪定(Dexmedetomidine,DEX)应用于断指再植手术中,观察联合应用对断指再植手术患者的血乳酸、血糖、血流动力学、Ramsay镇静评分及术中不良事件的临床效果观察。方法:选择2018年8月至2019年12月,三峡大学附属仁和医院手外科行断指再植手术患者100例。根据随机数法将100
城市品牌可以展现出城市的软实力,悄无声息的对外界展示城市的风貌。在全球化的今天,加强城市的综合竞争力,需要积极发展城市硬实力,同时塑造城市的软实力,而城市品牌的塑造,恰恰就成为一种增强城市竞争力的重要手段。西安作为十三朝古都,历史底蕴深厚,最近几年西安在城市品牌塑造中迎头赶上,通过一系列整合营销传播手段积极的塑造城市品牌,达到了预期的城市品牌整合营销传播效果,并通过成功的节事活动、营销活动使城市品
当前我国各地区间电网的主网络线路主要是由220 k V输电线路构成的,该电压等级的输电线路担当着各地方电能输送的主要任务,其可靠性直接关系到电能输送的稳定性和安全性。复杂的地理环境和极限气候条件对220k V输电线路的正常运行造成了诸多威胁,也极大地增加了线路维护的难度,甚至导致人员伤亡。随着网络信息技术的快速发展,“互联网+”已成为各行各业创新发展的平台,输电线路的安全隐患主要是因对线路走廊的监
近年来,随着各国之间的交流不断加强,口译活动扮演着愈发重要的角色。与此同时,一些语言类专家也投入到口译活动的研究。其中,法国著名口译教授丹尼尔·吉尔在认知科学的基础上提出了“精力分配模型”。他将交替传译分为听力理解和译语输出两个阶段,为现阶段的口译实践提供了重要指导。本文以作者在IBM全球志愿者服务队银川站项目中的口译实践为例,以“精力分配模型”为理论依据,分析了作者在口译活动中影响其精力分配的因
党的十九大提出,要构建全面统一、权威高效、全面覆盖的监督体系。国有企业管理和运行的有序关乎国家经济命脉的稳定,而对其领导和工作人员权力进行监督制约则是能够使国有企业保持平稳有序健康发展的关键方式。纪检监察履行对国企监督职能是将国有企业权力关进制度笼子里的关键,也是保障国有资产生产经营活动有序开展的重要制度保障。派驻监督是中国特色党内监督的重要形式,作为党委、纪委设在派驻部门的监督“前哨”和“探头”
过去二十年来的研究表明,氧化还原介体可以加速偶氮染料、高氯酸盐、砷酸盐、Cr(Ⅵ)及四氯化碳等的厌氧生物转化。在某些情况下,氧化还原介体的存在甚至是反应进行的必要条件