深度学习中的可证明非凸性质研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:asijhvherjknvn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自深度学习模型在ImageNet 比赛上以惊人的性能引起广泛关注以来已有十年时间。深度神经网络在计算机视觉,语音处理,自然语言处理,搜索,计算广告学乃至推荐系统等多个领域都取得了巨大成功,推动了人工智能的快速发展。与此同时,深度学习的黑箱特点让研究者仍然无法从科学的角度理解深度神经网络的学习机理。深度学习的黑箱难题一方面使得深度学习面临对抗样本等问题的挑战,另一方面也使人们无法有效地来选择模型结构以及提高深度学习的准确率与鲁棒性。本文基于非凸优化方法,研究深度神经网络的优化性质,泛化能力,其损失函数曲面的性质,以及可证明的学习能力。通过可证明的方法,本论文研究了异步并行优化的并行节点上界,证明了跨层连接等结构对损失函数曲面的改良能力,并给出了线性的以及带ReLU激活函数的RNN的网络在机器学习中的可证明学习能力,分析了模型的采样复杂度和时间复杂度。本文的主要创新工作如下:(1)针对基于梯度下降的非凸优化问题,研究了在非凸优化中非常重要的二阶稳定点,即鞍点逃离问题,给出了非凸情况下异步随机梯度下降算法的时延上界。在给定的时延上界以下,证明了异步随机梯度下降算法可以在保证线性并行加速的条件下找到二阶稳定点。从而为自第一原理方面理解大规模多机异步优化算法提供了保证,为了异步并行优化算法中的参数设置以及设计新的异步并行算法提供了坚实的基础。(2)一般认为利用ResNet中的跨层连接可以阻止梯度消失并防止多层网络的退化,但由于深度神经网络的非凸性,这一论断很难得到严格证明。本文针对跨层连接结构,分析了带跨层连接的多层深度神经网络的损失函数曲面。利用提出的下水平集方法,分析了多层神经网络的局部极小值的深度,证明了利用带跨层连接的结构堆叠出来的神经网络的损失函数曲面性能几乎严格比更低层的网络要好。从而证明了跨层连接可改良多层神经网络的损失函数曲面。该结果为ResNet结构的非退化性给出了理论依据,为基于跨层连接来设计新的网络结构提供了基础。(3)递归神经网络和递归结构是深度学习中非常重要的部分。但即便是对于最简单情况下的RNN,其学习能力也很难从理论上进行证明。本论文研究了线性RNN的学习能力问题,给出了一个新的随机初始化方案,并证明在给定的随机初始化条件下,利用梯度下降,过参数化的线性RNN可以以任意小的泛化误差来学习任意的谱半径为ρC<1的稳定线性动力系统。并且其采样和时间复杂度至多为1/1-ρC的多项式大小,这一结果证明了最一般的情况下的线性系统辨识问题,为深度学习设计递归结构提供了理论保证。(4)针对时间序列和自然语言处理中常用的基于ReLU激活函数的RNN网络,研究了非线性RNN的学习能力。证明了在输入为序列X1,X2,…XL的情况下,RNN可以学习到两类非平凡的目标函数,分别为加性概念类和N变量概念类,并且证明了对于这两类函数,其采样和时间复杂度多项式为输入的长度L的多项式大小,可以有效地达到任意小的泛化误差。本文的结果从理论上给出了非线性RNN的学习能力,从而为根据任务的特点来为自然语言处理和时间序列等任务设计神经网络应用提供了理论保证。
其他文献
大型汽轮发电机是整个电力系统的关键核心装备,在工农业生产、国防、科技及日常生活中发挥着不可或缺的作用。2021年,火电所用汽轮发电机组以50%的装机占比提供了66%的用电量、支撑了75%的高峰负荷需求。在未来相当长的时间内,汽轮发电机组仍将发挥“压舱石”作用。大型全空冷汽轮发电机相对氢冷和水冷汽轮发电机,因其运维方便,经济性高,且没有氢爆、漏水和漏电等风险,广泛应用于燃气-蒸汽联合循环电站、特高压
学位
纯电动车用驱动电机较多采用高效率和高功率密度的永磁同步电机(PMSM:Permanent Magnetic Synchronous Machine)。PMSM能量来源主要受电池等存储容量的限制,在保证安全性前提下提高控制系统的整体性能来增加续航里程,对负责信源转换的变换器及其调制和控制策略提出了更高要求。本课题以控制永磁同步电机的中点钳位(NPC:Neutral Piont Clamp)三相三电平
学位
光学超材料因其独特的电磁学和光学特性,在高分辨光学成像、高效光能吸收利用、高灵敏生物检测和发光增强控制等应用领域被寄予厚望。但是光学超材料的结构制备要求复杂,尤其是三维结构的亚波长光学超材料复杂度和多层化要求使构建工作更加困难。虽然可以部分依靠电子束刻蚀、激光光刻等高精度微加工方法进行制备,但是工艺复杂、成本高昂、适用层数有限。发展低成本和大规模制备三维光学超材料的非微加工依赖的材料学方法,一直是
学位
配电网的灵活、安全与可靠的运行具有重要意义。与现有的数据采集和监控(Supervisory Control And Data Acquisition,SCADA)系统相比,同步相量测量单元(Phasor Measurement Unit,PMU)为配电网提供了快速、精确与可靠的相量量测数据,可极大提升配电网能观性水平。但由于技术和经济的限制,配电网在短时间内难以实现全部节点装设PMU装置,导致不同
学位
基于以太网的列车通信网络(Ethernet-based Train Communication Network,ETCN)具有速率高、开放性强等优点,是新一代列车的首选车载控制网络。然而,在列车内外的信息交互途径越来越多、交互量越来越大的背景下,ETCN的应用降低了车载网络与外部网络的信息交互门槛,打破了传统车载网络因相对封闭而产生的“网络安全壁垒”,增加了车载网络受到网络攻击的潜在风险、给其网络
学位
随着核能技术的不断发展与利用,大量高放固体废物随之而生。对高放废物进行深地质处置是目前全世界公认的最具潜力、最有希望投入应用的处置方案。在高放废物处置库的设计中,废物罐周围的缓冲层由高压实的膨润土砌块堆砌组成,在施工过程中必然会形成施工接缝,而施工接缝成为了缓冲/回填材料潜在的水力缺陷与强度薄弱部位。处置库运行期间,缓冲/回填材料会受到热、水、力等多场耦合作用的影响,因此含接缝的缓冲/回填材料在热
学位
随着信息技术的发展,全方位的网络服务和众多移动应用为人们在网上发表观点提供了便捷的途径,这使得网络上蕴含情感的评论文本大量产生。如何让机器理解评论文本的语义并判断其情感倾向,为搜索排序、商品推荐、事务决策、社会治理等上层应用提供依据,已成为学术界和工业界共同关注的热点问题。在实际的应用场景中,评论文本往往面向的是不同的领域,而不同领域的评论针对的是不同的评论对象,所采用的表述语言和情感词汇是有差异
学位
对话是人与人之间交流的重要方式,同时也是人机交互的主要手段。随着人工智能技术的发展,对话生成技术也得到快速发展,但其仍不能满足人们日益增长的生活需求。研究基于神经网络的对话生成新技术,对促进对话系统和人机交互技术的发展具有理论价值和实际指导意义。目前,基于深度神经网络的对话生成方法已经取得了较大的进展,但仍存在一些问题需要探索:(1)现有的端到端对话生成模型容易生成通用性回复,并且生成的回复包含有
学位
轨道列车运维是轨道交通安全的重要保障,基于物联网和人工智能(Artificial Intelligence,AI)技术实现轨道列车关键部件在线监测是当前智能化列车运维的发展趋势。轨道列车在线监测主要包含两个关键步骤:数据采集和故障诊断。由于轨道列车车体结构和运行环境的复杂性,基于物联网和AI技术实现列车数据采集和故障诊断仍面临诸多问题。一方面,大量已有列车车体底部的一些关键部件所处的位置未预留电源
学位
聚合物材料因其结构丰富、柔韧性好、可溶液加工、成本低、质量轻等优势,被广泛应用于聚合物薄膜晶体管及光电探测器的研究开发中。但是聚合物薄膜的无序结构限制了电荷的传输,因此制备高有序度聚合物薄膜成为改善器件电荷输运的重要途径。纳米线结构的引入是提高聚合物薄膜有序度的重要手段之一。然而这一结构对电荷传输及器件性能的影响有待进一步探究。同时,关于纳米线结构对电化学晶体管、光电探测器等光电器件性能影响的讨论
学位