深度学习模型的高效训练算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：chicagousa

【摘要】

：

近年来,深度学习技术被成功应用于语音识别、手写识别、计算机视觉、自然语言处理等领域,取得了显著成果。随着深度学习模型结构日趋复杂,训练数据不断增加,如何实现模型的高

【作者】

：

陈凯

【出处】

：

中国科学技术大学

【发表日期】

：

2016年期

【关键词】

：

深度学习样本分离边距最小分类误差上下文敏感区块并行训练可扩展训练变方向乘子法逐块模型更新滤波深度神经网络长短时记忆元连接时序分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,深度学习技术被成功应用于语音识别、手写识别、计算机视觉、自然语言处理等领域,取得了显著成果。随着深度学习模型结构日趋复杂,训练数据不断增加,如何实现模型的高效训练,成为亟待解决的问题,当下计算技术,特别是高性能计算(HPC)和图形处理单元(GPU)技术的发展使得我们可以利用的计算资源越来越多,这为该问题的解决提供了良好的契机。本文围绕整流线性单元(ReLU)深度神经网络(DNN)的新训练准则,深度双向长短时记忆元(DBLSTM)递归神经网络(RNN)的快速训练以及深度学习模型的可扩展训练等三个方面对该问题进行了研究,并有所创新。首先,针对用于分类问题的ReLU-DNN,本文提出用基于样本分离边距(SSM)的最小分类误差(MCE)准则替代传统的交叉熵(CE)准则对模型进行训练。对于给定的训练样本,如果忽略ReLU-DNN中输出为0的隐层节点,该网络可被视作线性分类器,SSM-MCE作为适用于线性分类器的训练准则,其损失函数直接与分类错误率相关,在最小化损失函数的同时,可以增大SSM,改善模型在测试集上的泛化能力。实验结果表明,SSM-MCE在中小规模的网络上可以取得优于CE的结果。其次,本文针对DBLSTM训练缓慢,解码延迟高的问题,提出了基于上下文敏感区块(CSC)的时域后传(BPTT)训练算法及其相应的解码算法。该算法将长序列的DBLSTM建模的问题转化成短CSC的建模,提高了模型训练的并行度,加快了训练速度,降低了解码延迟,为DBLSTM的实时应用奠定了基础。实验结果表明,在大词汇量连续语音识别(LVCSR)任务上,该方法取得了与传统方法相同的识别效果,而训练速度加快了3.4倍,解码延迟大大降低。再次,为了利用大规模数据对深度学习模型进行并行训练,我们提出了增量块训练(IBT)框架下的变方向乘子(ADMM)算法。作为一种数据并行算法,基于ADMM的IBT算法将无约束的深度学习模型训练问题转化成全局一致约束下的优化问题进行求解。我们在HPC集群上对其进行了实现,实验结果表明,在1,860小时的LVCSR的DNN训练任务上,该算法取得了与模型平均(MA)算法大致相同的结果,且实现了训练的线性加速。最后,针对MA并行训练算法随并行机器增多,模型性能显著下降的问题,本文将全局模型的更新看作随机优化过程,提出了逐块模型更新滤波(BMUF)算法。该算法使用块冲量(BM)技术,补偿了MA算法中取平均操作带来的负面作用。在1,860小时LVCSR的神经网络训练任务上,本算法在多达64块卡的DNN CE训练和32块卡的带投影层DBLSTM (DBLSTMP) CE训练上均实现了近乎线性加速,在一百万行手写识别的DBLSTM训练任务上,使用32块卡实现了DBLSTM连接时序分类(CTC)训练的28倍加速,这些并行训练得到的模型与单机训练得到的相比,性能基本没有下降,有些情况下甚至更好。

其他文献

铁路油罐车粘油电加热探讨

<正> 我国粘油罐车的加热方式,目前仍然采用传统的蒸汽加热方法。实践表明,这种方法存在加热时间长、能源利用率低、劳动强度大、污染环境等缺点,而且设备安装、维修不便,也

期刊

铁路油罐车加热

面向21世纪禁毒专业课程设置构想

云南公安高等专科学校作为一所专门为云南公安战线培养高级应用人才的高等警察院校 ,根据禁毒斗争需要 ,学校于 1997年全国首次设立禁毒专业 ,2 0 0 2年又成立了世界上第一个

期刊

禁毒课程设置构想

基于声速比对的气体超声波流量计远程诊断系统的设计

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

学位

气体超声波流量计远程诊断稳定通讯理论声速计算流量计声速计算

带自耦调压的12脉波桥式整流变压器设计

阐述了带自耦调压的12脉波桥式整流变压器的工作原理和实现方式,介绍了该变压器的组成和电磁设计要点,对比分析"一拖二"结构优势与多边形移相变压器的区别及应用前景。

期刊

自耦调压12脉波桥式整流同相逆并联移相变压器

多效唑在梨、葡萄和樱桃生产上的使用方法

近年来,为了尽早提高果树产量,增加收益,广大林果农普遍在尝试试用果树控旺剂多效唑。笔者就果树中的梨、葡萄和樱桃生产管理过程中使用多效唑的情况进行调查试验研究,总结了

期刊

多效唑果树使用方法

浅议高职院校内部固定资产移交的管理

期刊

固定资产内部移交

北京建工四建：建安全体验区,为农民工筑起“安全意识防护墙”

为丰富安全生产教育培训形式,提升安全培训实际效果,根据北京市住房城乡建设委要求,近日,北京建工四建在京内通州两站一街项目部工地上,筑起了一道“安全意识防护墙”——安

期刊

安全意识北京市防护墙农民工安全生产工作培训中心教育培训安全培训

对“真空灌泵技术在石油库区消防工艺中的应用”的不同意见

<正> 《油气储运》第9卷第3期刊登了“真空灌泵技术在石油库区消防工艺中的应用”(简称“真空灌泵”)一文。该文提及的一些观点有些不妥,现将我的意见提出,供作者及读者参考

期刊

油库消防真空灌泵

骨碎补总黄酮对大鼠Masquelet诱导膜血管新生因子表达的影响

期刊

骨碎补总黄酮Masquelet技术诱导膜血管新生因子

受控语言:机器翻译的新途径

本文对国外受控语言以及受控语言机器翻译的研究情况进行了综述和分析 ,内容包括受控语言的定义、发展、益处、特点。此外 ,文章还对使用受控语言的机器翻译文本进行了比较分

期刊

受控语言发展益处特点机器翻译

深度学习模型的高效训练算法研究

与本文相关的学术论文