论文部分内容阅读
近年来,基于深度学习的语音识别技术迅猛发展。以2011年提出的上下文相关-深度神经网络-隐马尔科夫框架(Context-Depedent Deep Neural NetworkHidden Markov Model,CD-DNN-HMM)为标志,传统的高斯混合模型-隐马尔科夫(Gaussian Mixture Model Hidden Markov Model,GMM-HMM)框架被逐步替换。深度学习算法使语音识别技术接近实用水平,而移动互联网的发展带来了对语音识别技术的巨大需求,两者相互促进。语音识别技术在该阶段的发展变化可以从两个角度来解读。首先,从模型结构上来看,基于深度学习的声学模型经历了从前馈神经网络(FeedForward Neural Network,FNN)到回归神经网络(Recurrent Neural Network,RNN)的变化。其次,从技术框架来看,基于深度学习的语音识别技术经历了从混合(Hybrid)框架到端到端(End-to-End)框架的转变。不论是混合语音识别还是端到端语音识别,声学模型都具有举足轻重的作用。本文关注不同模型结构、不同框架下的声学模型建模方法及应用策略,主要创新成果如下: 1.首次对深度神经网络声学模型的Dropout方法在大词汇量连续语音识别任务中的有效性进行了研究。本文提出了“Dropout方法+标准误差反传”的组合训练策略,与基线系统相比,采用该策略训练得到的深度神经网络(Deep Neural Network,DNN)声学模型可获得7%的性能提升。为了更好的理解Dropout,本文提出了三种基于Dropout的模型测试方法,这三种方法证明了Dropout中的均值网络其本质为模型平均。 2.提出了一种两层DNN结构,将瓶颈特征提取器与DNN声学模型建模结合在一起,在混合框架下实现了基于深度神经网络的多语言数据共享和跨语言知识迁移,克服了传统Tandem框架下GMM和MLP建模能力较弱的局限。 3.首次将门限RNN(Gated Recurrent Neural Network,GRNN)用于混合语音识别声学模型建模,在多个不同任务上与长短时记忆模型(LongShort-Term Memory, LSTM)及长短时记忆线性映射模型(Long Short-Term Memory Projection,LSTMP)进行了性能比较,并对三者的优劣进行了细致分析。本文的实验结果表明,三种声学模型中LSTMP的性能最优异,并且一致性最好,三者的性能由高到低排列为:LSTMP、GRNN、LSTM。与最好的DNN声学模型相比,性能最优异的LSTMP在多个测试集上可获得超过10%的性能提升。 4.本文详细描述了LSTMP声学模型的识别性能和训练速度的优化方法,包括最大范数正则、初始化方法以及并行训练等,并对LSTMP中线性映射层的作用以及双向LSTMP的延时可控BPTT(Latency-Controlled BPTT,LC-BPTT)算法进行了实验研究。与单向LSTMP相比,LC-BPTT算法训练得到的双向LSTMP在不同的任务上可以获得3%至8%的性能提升,且与Epochwise BPTT算法相比,训练耗时大幅度减小。 5.首次将链接实时分类(Connectionist Temporal Classification,CTC)目标函数引入到中文端到端连续语音识别任务,分析了不同建模单元、不同模型结构以及不同训练和解码方法对收敛过程及识别性能的影响,并成功地将该技术应用于大规模中文电话对话语音识别任务,极大地降低了该语音识别系统的搭建复杂度。