基于深度神经网络的大规模声学模型训练研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:chongyou2025
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度神经网络在大词汇量连续语音识别中的广泛应用,语音识别系统的性能较传统基于高斯混合模型的系统有了很大的提升,并达到了实际的应用要求。随着互联网上数据不断地积累,语音数据从最早的几十小时增长到现在的上万小时,目前数据量还在不断地增加。如何利用如此大规模的语音数据快速地训练语音识别系统成为一个急迫要解决的问题。本论文针对基于深度神经网络的大规模声学模型训练问题和在语音识别的具体应用中遇到的问题进行了深入的探索和研究,取得的主要研究成果和创新点有:  1.针对DNN预训练的算法进行了研究,提出将基于深层玻尔兹曼机的预训练模型应用于连续语音识别系统的深度神经网络训练中。在TIMIT数据集的phone识别任务中,基于深层玻尔兹曼机的深度神经网络和基于深层信度网络的深度神经网络相比,在核心测试集上PER相对下降了3.8%。  2.针对采用单台服务器多GPU进行DNN训练方面,提出将基于均值随机梯度下降的one pass learning算法应用到深度神经网络的训练中。并提出将onepass learning算法和异步的并行方式相结合,使得该算法能在多GPU上运行。基于均值随机梯度下降的one pass learning算法和异步随机梯度算法相比训练速度提升了5.3倍。  3.在研究DNN的分布式训练方面,提出了基于Stochastic Hessian Free算法的GPU集群训练方式,解决了异步并行算法中的机器之间通讯带宽要求较高的问题,并且和异步并行算法相比明显地提升了训练速度。  4.涉及到多通道混合数据训练方面,本文提出了基于DNN自适应的方法来进行多通道混合训练,取得了比特征补零方式的DNN多通道混合训练方法更好的识别性能。进一步,本文采用基于奇异值分解的DNN训练加速方法,在24块GPU卡构成的GPU集群上,仅用7天时间完成了7500小时多通道语音数据的混合训练。
其他文献
随着信息技术的智能化发展,基于生物特征识别的身份认证以其唯一性、稳定性的特性,和灵活便捷的使用方式得到广泛应用,其中基于图像的生物特征识别技术又具有显著的优势,包括虹膜
论文主要完成对某一光电跟踪系统跟踪控制算法的研究与分析.使用论文中所提供的算法可以使该光电跟踪系统达到较高的跟踪精度及较快的响应速度.论文主要做了以下工作:一.讨论
自动化生产线已大量应用于工业生产中,它是衡量企业生产经营决策现代化水平高低的重要标志.该文以高级自动化生产线的实现及可靠性为论题,根据大型生产过程的特点及要求,从灵
系统辨识是20世纪60年代开始发展起来一门学科,它的发展与它周围的其它理论的发展是息息相关的.近年来在国际上流行的遗行算法为系统辨识提供了有力的分析工具.该学位论文讨
舰船在海中航行时无时不刻受到海浪的干扰,为了更好地进行舰船姿态预报就需要首先对海浪进行研究.船舶的摇摆运动主要是受海浪的作用引起的.因此,研究海浪预报对于船舶运动预
作为对一种专用数控铣床设计与应用的详细分析与介绍,该论文不仅阐述了系统方案、系统整体结构、硬件与软件设计的工本原理和思路,而且根据实际调试工作中所遇到的问题介绍了
空气动力学试验的特殊性要求暂冲式风洞稳定流场的建立时间短、控制精度高且气流均匀性好,而风洞过程动态特性不可预测的变化和气源容量的限制导致很难控制试验马赫数和稳定
该文针对三带四柱B型逆流模拟移动床色谱的仿真系统,首先利用模糊控制实现了对色谱系统稳态过程的控制,又根据稳态色谱运行所获得的专家经验,利用专家系统控制色谱动态过程,
随着多媒体与互联网技术的快速发展,视频数据的爆炸式增长和内容的多样化给分析和处理视频数据带来了新的挑战。视频中人体行为识别是视频智能分析的一个重要内容,其目的是让计
随着自动化技术的飞速发展,机械臂被广泛应用于加工对象装卸、搬运、焊接、喷涂、装配等许多自动化作业中。为了进一步提高机械臂的工作效率,本文对基于工作对象三维模型的工业