基于深度学习的大规模连续语音识别系统性能优化

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:jinnanwc2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着深度学习方法的发展以及GPGPU大规模并行计算技术的成熟,深度学习在学术界和工业界得到了广泛应用,2012年深度学习相继在图像分类和语音识别领域取得了突破性成果。在语音识别领域,相对于传统的GMM-HMM模型,基于深度神经网络(DNN)的语音识别系统获得了超过30%的相对性能提升。但是可能需要花费数个月的时间去训练一个DNN模型,基于反向传播算法的DNN训练过程巨大的计算复杂度使得DNN训练成为一个瓶颈。不像传统GMM-HMM模型的Baum-Welch训练,因为频繁的更新整个模型,基于minibatch的BP训练很难实现并行。  本文实现了一个综合提高DNN训练效率框架,从三个层面系统阐述及实现了三种独立加速DNN训练方法,包括并行训练,模型裁剪以及优化DNN训练策略;提出了轻预训练深度模型初始化方法以及一种新颖的DNN训练策略。基于整个优化系统,能在20小时内完成典型的309小时Switchboard LVCSR训练任务,在10天左右的时间内完成商用系统中3600小时中文普通话LVCSR训练任务。实验显示使用两个GPU整个加速框架能够在最终识别性能不降的情况下降低70%的模型复杂度以及实现8倍左右的DNN训练加速。
其他文献
随着人类基因组计划的完成,生命科学研究进入后基因组时代,研究基因所表达的蛋白质成为研究的热点。蛋白质的功能往往体现在与其它蛋白质或其它的生物大分子之间的相互作用之
随着信息技术的迅猛发展,网络成为人们获取信息的主要手段。为了帮助人们在浩如烟海的互联网中得到有用的信息,基于 Internet的各类信息检索服务应运而生并得到了迅速发展。目
随着Internet迅速发展及Web技术广泛应用,使得职业技能鉴定部门实现鉴定工作自动化管理成为可能。为了实现职业技能鉴定的科学化、自动化、网络化管理,开发符合鉴定部门实际情况的职业技能鉴定系统势在必行。论文的研究是建立在某大型钢铁公司职业技能鉴定系统项目的基础上。针对职业技能鉴定部门手工处理数据效率低、不准确、易错漏的现状,论文提出一种基于JSF(Java Server Faces)、Sprin
随着计算机技术的发展与普及,计算机辅助审计技术正发挥着越来越重要的作用。但是,由于各地社保信息系统设计不一致,就必须将异构的数据转换为审计能够使用的标准数据。这种
基于视频运动目标检测与跟踪融合了图像处理、模式识别、人工智能、自动控制以及计算机等许多领域的先进技术,已经成为计算机视觉研究的重要领域。目前,在复杂场景、大范围、多
本文通过对服务组件架构(SCA)的深入分析和研究,提出了SCA框架构建和运行时存在的一些局限性,采用开放服务网关协议(OSGi)对SCA组件运行时刻的隔离关注、服务注册、服务生命
动态二进制翻译器中的Code Cache用于缓存翻译后的代码块,当代码块再次被执行时就可以直接使用缓存的代码块,而无须再次翻译。Code Cache的使用可以大大提高翻译器的性能。本
现如今恶意代码数量以爆炸式的速度增长、复杂度和破坏力不断增强、恶意代码技术创新越来越频繁,使得传统的以人为监控资源操作的恶意代码分类越来越困难,能够自动化分析、高效
PaaS云作为一种重要的云计算模式,通常以可编程容器的形式交付一组软件和基础设施供云租户开发、托管及部署应用程序或服务。PaaS平台自身负责维护资源的动态扩展,可极大降低应
在移动通讯市场经过多年大规模网络建设、终端高度普及之后,移动运营商眼下都将精力集中于对现有网络整合、业务模式创新、服务质量提高和开拓新的用户市场上,以期实现快速的