基于深度学习的语音识别声学模型建模方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:fsp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,基于深度学习的语音识别技术迅猛发展。以2011年提出的上下文相关-深度神经网络-隐马尔科夫框架(Context-Depedent Deep Neural NetworkHidden Markov Model,CD-DNN-HMM)为标志,传统的高斯混合模型-隐马尔科夫(Gaussian Mixture Model Hidden Markov Model,GMM-HMM)框架被逐步替换。深度学习算法使语音识别技术接近实用水平,而移动互联网的发展带来了对语音识别技术的巨大需求,两者相互促进。语音识别技术在该阶段的发展变化可以从两个角度来解读。首先,从模型结构上来看,基于深度学习的声学模型经历了从前馈神经网络(FeedForward Neural Network,FNN)到回归神经网络(Recurrent Neural Network,RNN)的变化。其次,从技术框架来看,基于深度学习的语音识别技术经历了从混合(Hybrid)框架到端到端(End-to-End)框架的转变。不论是混合语音识别还是端到端语音识别,声学模型都具有举足轻重的作用。本文关注不同模型结构、不同框架下的声学模型建模方法及应用策略,主要创新成果如下:  1.首次对深度神经网络声学模型的Dropout方法在大词汇量连续语音识别任务中的有效性进行了研究。本文提出了“Dropout方法+标准误差反传”的组合训练策略,与基线系统相比,采用该策略训练得到的深度神经网络(Deep Neural Network,DNN)声学模型可获得7%的性能提升。为了更好的理解Dropout,本文提出了三种基于Dropout的模型测试方法,这三种方法证明了Dropout中的均值网络其本质为模型平均。  2.提出了一种两层DNN结构,将瓶颈特征提取器与DNN声学模型建模结合在一起,在混合框架下实现了基于深度神经网络的多语言数据共享和跨语言知识迁移,克服了传统Tandem框架下GMM和MLP建模能力较弱的局限。  3.首次将门限RNN(Gated Recurrent Neural Network,GRNN)用于混合语音识别声学模型建模,在多个不同任务上与长短时记忆模型(LongShort-Term Memory, LSTM)及长短时记忆线性映射模型(Long Short-Term Memory Projection,LSTMP)进行了性能比较,并对三者的优劣进行了细致分析。本文的实验结果表明,三种声学模型中LSTMP的性能最优异,并且一致性最好,三者的性能由高到低排列为:LSTMP、GRNN、LSTM。与最好的DNN声学模型相比,性能最优异的LSTMP在多个测试集上可获得超过10%的性能提升。  4.本文详细描述了LSTMP声学模型的识别性能和训练速度的优化方法,包括最大范数正则、初始化方法以及并行训练等,并对LSTMP中线性映射层的作用以及双向LSTMP的延时可控BPTT(Latency-Controlled BPTT,LC-BPTT)算法进行了实验研究。与单向LSTMP相比,LC-BPTT算法训练得到的双向LSTMP在不同的任务上可以获得3%至8%的性能提升,且与Epochwise BPTT算法相比,训练耗时大幅度减小。  5.首次将链接实时分类(Connectionist Temporal Classification,CTC)目标函数引入到中文端到端连续语音识别任务,分析了不同建模单元、不同模型结构以及不同训练和解码方法对收敛过程及识别性能的影响,并成功地将该技术应用于大规模中文电话对话语音识别任务,极大地降低了该语音识别系统的搭建复杂度。
其他文献
随着INTERNET的迅速普及,电子商务必将蓬勃发展,电子商务的虚拟购物环境既为企业提供了新的发展机遇,但同时也提出许多新的要求和挑战,其中为用户提供个性化推荐服务越来越成
变电站运行安全监控中的智能视觉分析是用摄像机代替人眼、用计算机代替人脑、自动地对监控相机采集的图像序列进行分析,实现对监控场景中设备运行状态和环境安全自动监控的技
本文首先详细分析了模糊神经网络和软测量技术的原理方法及其各自的发展状况,在此基础上,分析补偿模糊逻辑的原理,将补偿模糊推理系统与前馈神经网络结合起来,建立一种新型补偿模
随着现代化工工业向大型化、集成化和精细化发展,生产的安全性、稳定性和可靠性问题就愈显重要,因此迫切需要建立性能良好的故障诊断检测和诊断系统。本文针对化工过程故障诊断
近年来,随着多媒体技术、计算机网络与通信技术的快速发展,传统的视频监控系统也不断地朝着数字化、网络化、集成化的方向更新与发展,出现了集多媒体技术、计算机网络与通信技术
粒子群优化(PSO)算法是一种新兴的优化技术,其思想来源于人工生命和演化计算理论。PSO算法通过粒子追随自己找到的最好解和整个群的最好解来完成优化,其有诸如简单的表达方式,较
随着互联网和智能终端的快速发展,用户可以方便快捷地产生高质量的图像与视频数据,并利用互联网进行快速传播,图像与视频数据呈现出爆炸式的增长。数据的迅速增长给图像与视频查
矩阵变换器是一种先进的功率变换器,它允许频率单级变换,无需大容量储能元件,能量双向流动。它能使输入电流、输出电压正弦,输入功率因数可达到0.99以上并可自由调节,且与负载的功
大型、复杂的交-交变频调速设备是由变频调速系统、电动机、机械传动装置等组成的机电一体化的复杂设备。提高调速性能和可靠性是变频调速系统研究的两个核心内容。针对这两
支持向量机是机器学习算法中较为成熟的一种,因为其具有小样本建模能力强,泛化性能好,鲁棒性较好等优点,有着很广泛的应用。本课题中主要研究了以下问题: 1)简要介绍了机器学习