深度学习中深度问题与大模型问题的研究

来源 :南开大学 | 被引量 : 1次 | 上传用户:xiameng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,特别是2006年之后,深度神经网络(又被称为深度学习)迅速发展,在各个应用领域都取得了巨大的成功。从根本上讲,神经网络其实并不是一个全新的技术,它的很多模型和训练方法在20世纪90年代已经成型。但是,在当时神经网络并没有像如今一样被广泛且成功地应用。究其本质原因,2006年之后的深度神经网络取得的巨大成功离不开越来越多的层数(即深度)和越来越大的参数规模(即大模型)。为了有效地增加层数,诸如自动编码、批归一化、残差网络等技术被提出;为了高效地训练大模型,诸如数据并行、模型并行等并行训练框架被引入。尽管关于深度学习的研究十分繁荣,但是下述关于深度和大模型并行训练的问题还需进一步探索。第一,在深度方面,尽管有多种技术可以有效地增加神经网络的层数,然而一个重要的问题是如何从理论层面理解深度对于深度神经网络的利弊。第二,在大模型的训练方面,大多数并行算法都是从凸模型继承而来的。然而,深度神经网络是一个高度非凸模型。如何解决并行训练时模型非凸性带来的问题是一个重要的挑战。第三,与浅层模型相比,深度神经网络中的冗余参数非常多,这会导致并行训练时的传输代价非常高。因此,如何解决并行训练时参数冗余性带来的问题也是一个重要的挑战。为了解决上述问题,本文进行了如下几个方面的探索。第一,给出了深度神经网络模型空间容量和表达能力的通用上界,并基于这两个上界分析了深度对于神经网络的利弊,进而提出最大化间隔的方法来进一步提升深度神经网络的性能。第二,指出了非凸性会影响并行训练时模型整合步骤的性能,并提出了使用模型集成作为新的模型整合方式,进而设计了基于模型集成的并行训练框架来提高并行训练的性能。第三,提出了将基于轻量级传输的并行训练定义为一个多智能体系统,并给出了对于行为、环境及效用的具体定义。基于这个多智能体系统,设计了仅传输非冗余参数(或梯度)的策略来减小交互代价,从而达到了加速并行训练的目的。
其他文献
公共服务就是使用公共权力或公共资源,为满足公民生活、生存与发展的某种直接需求提供的服务(物品)。公共服务中最基础的是基本公共服务。基本公共服务是指为维持经济社会的稳定
报纸
目的:对早孕期颈项部皮肤透明层(Nuchal Translucency,NT)增厚(≥3.0 mm)的胎儿进行孕期及出生后追踪随访,了解及掌握中、晚孕期胎儿的发育情况,以期为临床产科医生提供科学
每当对别人说我正在练习瑜伽时,他或她的第一个反应就是:“那你的身体一定很柔软。”——瑜伽的确能够增加肌肉和骨骼的柔韧性,但它的作用远不止此。现今在中国和西方流行的
在实际工程应用中,不确定性因素不可避免的存在于结构的设计、制造、运营及维护等各个阶段,主要由结构的几何尺寸、材料特性、安装和测量误差、边界条件及对工程问题所做的一
2017年,我国融资租赁业继续呈稳步发展态势。据中国租赁联盟和天津滨海融资租赁研究院发布的《2017年中国融资租赁业发展报告》(以下简称《报告》)统计,截至2017年底,全国融资租赁
报纸
任何商品都是在流通的过程实现其价值的,电影也不例外.然而,对于电影在流通过程中究竟具备哪些属性?而我们又应该根据这些属性对电影的创作生产提出何种要求?这对我们来说还
本文主要设计开发了一款基于STC89C51单片机的多功能视力保护器,主要进行了电路的搭建以及软件的设计。本设计的核心内容包括:超声波测距,蜂鸣器定时报警,光敏电阻测光,以及L
对于化工项目来说,提高其工程管理质量是很多化工企业所追求的目标。在具体的化工工作中,对各方面的要求很高,特别是化工生产具有一定的危险性,所以对工程质量的要求也在不断
中低温煤焦油通过加氢可制备清洁轻质燃料油,对缓解我国石油短缺的现状具有重要意义。加氢过程中,煤焦油中的铁和氮杂原子容易引起设备腐蚀和催化剂中毒失活等一系列问题。尤其是煤焦油中富含大量结构复杂的含氮化合物,其赋存形态和脱除规律尚不明确。因此,在加氢前需对煤焦油进行预处理以脱除这些杂质组分。首先,采用酸精制法对煤焦油进行预处理,重点研究煤焦油中铁、氮杂原子的脱除规律。其次,采用酸中和-柱层析法对<
美国马里兰州STEM教育战略计划是在全州范围内促进K-12阶段STEM教育发展的重要举措。计划实施路径聚焦于教师专业发展、教育公平、教育资源、学习机会以及信息交流等五大领域