论文部分内容阅读
随着深度神经网络在大词汇量连续语音识别中的广泛应用,语音识别系统的性能较传统基于高斯混合模型的系统有了很大的提升,并达到了实际的应用要求。随着互联网上数据不断地积累,语音数据从最早的几十小时增长到现在的上万小时,目前数据量还在不断地增加。如何利用如此大规模的语音数据快速地训练语音识别系统成为一个急迫要解决的问题。本论文针对基于深度神经网络的大规模声学模型训练问题和在语音识别的具体应用中遇到的问题进行了深入的探索和研究,取得的主要研究成果和创新点有: 1.针对DNN预训练的算法进行了研究,提出将基于深层玻尔兹曼机的预训练模型应用于连续语音识别系统的深度神经网络训练中。在TIMIT数据集的phone识别任务中,基于深层玻尔兹曼机的深度神经网络和基于深层信度网络的深度神经网络相比,在核心测试集上PER相对下降了3.8%。 2.针对采用单台服务器多GPU进行DNN训练方面,提出将基于均值随机梯度下降的one pass learning算法应用到深度神经网络的训练中。并提出将onepass learning算法和异步的并行方式相结合,使得该算法能在多GPU上运行。基于均值随机梯度下降的one pass learning算法和异步随机梯度算法相比训练速度提升了5.3倍。 3.在研究DNN的分布式训练方面,提出了基于Stochastic Hessian Free算法的GPU集群训练方式,解决了异步并行算法中的机器之间通讯带宽要求较高的问题,并且和异步并行算法相比明显地提升了训练速度。 4.涉及到多通道混合数据训练方面,本文提出了基于DNN自适应的方法来进行多通道混合训练,取得了比特征补零方式的DNN多通道混合训练方法更好的识别性能。进一步,本文采用基于奇异值分解的DNN训练加速方法,在24块GPU卡构成的GPU集群上,仅用7天时间完成了7500小时多通道语音数据的混合训练。