基于深度神经网络的语音识别模型研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:dillydally
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音作为最自然、最有效的交流途径,一直是人机通信和交互领域最受关注的研究内容之一。自动语音识别的主要目的是让计算机能够"听懂"人类的语音.将语音波形信号转化成文本。它是实现智能的人机交互的关键技术之一。声学模型和语言模型是语音识别系统的两个核心模块。传统的语音识别系统普遍采用基于高斯混合模型和隐马尔科夫模型(Gaussian Mixture Model-Hidden Markov Model,GMM-HMM)的声学模型以及n-gram语言模型。近年来,随着深度学习的兴起,基于深度神经网络的声学模型和语言模型相比于传统的GMM-HMM和n-gram模型分别都获得了显著的性能提升。在此背景下,本论文从深度神经网络的模型结构出发,展开了较为系统和深入的研究,一方面对现有的模型进行优化,另一方面结合语音及语言信号的特性探究新的网络结构模型,从而提高基于深度神经网络的语音识别系统的性能和训练效率。首先,本文研究了基于前馈全连接深度神经网络(Deep Neural Networks,DNN)的语音声学建模。我们分别探索了基于sigmoid非线性激活函数的DNN(sigmoid-DNN)和基于整流线性单元(Rectified Linear Units,ReLU)的 DNN(RL-DNN)的大词汇量连续语音识别。首先针对传统的sigmoid-DNN,我们通过研究发现其隐层权重越往高层稀疏性越强的特性,提出了一种隐层节点递减的DNN结构,命名为sDNN。实验结果表明sDNN可以在保持性能基本不变的情况下将模型参数量减少到45%,从而获得2倍的训练加速。进一步地我们提出将dropout预训练作为一种神经网络的初始化方法,可以获得相比于传统的无监督Pre-training更好的性能。然后我们针对RL-DNN的研究发现,通过合理的参数配置,可以采用基于大批量的随机梯度下降算法来训练RL-DNN,从而能够利用多个图形处理单元(Graphic Processing Unit,GPU)进行并行化训练,可以获得超过10倍的训练加速。进一步地我们提出了一种绑定标量规整的方法用于优化RL-DNN的训练,不仅使得训练更加稳定,而且能够获得显著的性能提升。其次,本文提出一种固定长度依次遗忘编码(Fixed-size Ordinally Forgetting Encoding,FOFE)方法用于语言模型建模。FOFE通过简单的顺序遗忘机制来对序列中的单词位置进行建模,可以将任何可变长度的单词序列唯一地编码成固定大小的表达。本研究中,我们提出基于FOFE的前馈神经网络语言模型(FOFE-FNNLM)。实验结果表明,在不使用任何反馈连接的情况下,基于FOFE的FNNLM显著的优于标准的基于1-of-k编码作为输入的FNNLM,同时也优于基于循环神经网络(Recurrent Neural Networks,RNN)的语言模型。再次,本文提出了一种新颖的神经网络结构,命名为前馈序列记忆神经网络(Feedforward Sequential Memory Networks,FSMN)。FSMN 可以对时序信号中的长时相关性(long-term dependency)进行建模而不需要使用反馈连接。本研究所提出来的FSMN可以认为是在标准的前馈全连接神经网络的隐藏层中配备了一些可学习的记忆模块。这些记忆模块使用抽头延迟线结构将长时上下文信息编码成固定大小的表达作为一种短时记忆机制。我们在语音识别声学建模以及语言模型建模任务上验证了所提出的FSMN模型。实验结果表明,FSMN不仅可以取得相比于当前最流行的循环神经网络更好的性能,而且训练更加高效。在此基础上,我们探索了 FSMN模型的改进,通过结合低秩矩阵分解的思路以及修改记忆模块的编码方式提出了一种结构简化的FSMN,命名为cFSMN。同时通过在cFSMN的记忆模块之间添加跳转连接,避免深层网络训练过程梯度消失的问题,实现了非常深层的cFSMN的训练。我们在Switchboard数据库以及Fisher数据库进行的声学建模实验验证了所提出的模型的性能。Fisher数据库的实验结果表明基于深层的cFSMN的识别系统相比于主流的基于BLSTM的识别系统可以获得13.8%的相对词错误率下降。最后,本文提出一种用于高维数据建模的新模型,称之为联合优化正交投影和估计(Hybrid Orthogonal Projection and Estimation,HOPE)模型。HOPE 将线性正交投影和混合模型融合为一个生成模型。HOpe模型本身可以从无标注的数据中通过无监督最大似然估计方法进行无监督学习,同时也可以采用带标注的数据进行有监督学习。更为有趣的是,我们的研究阐述了 HOPE模型和神经网络之间的密切关系。HOPE可以作为一个新的工具用于探究深度学习的黑盒子,以及用于有监督和无监督深度神经网络的训练。我们在语音识别TIM1T数据库以及图像分类MNIST数据库验证了基于HOPE模型的无监督、半监督以及有监督学习。实验结果表明,基于HOPE框架训练的神经网络相比于现有的神经网络在无监督、半监督以及有监督学习任务上都获得显著的性能提升。
其他文献
“大接收”和“大接管”是中国现代史上两次建设现代国家的大好契机 ,也是决定国共兴衰存亡的两件大事。作为其行为主体 ,国共两党却一败一成 ,总结其经验教训 ,对于今天建政
从西方国家公司治理结构的历史演进逻辑可以看出:公司治理结构没有一个完全一致的标准模式,也没有一个最佳的单一治理模式。对于当代我国国有企业的公司治理结构来说,在与国
随着现代企业质量管理的重要性的日益凸显,如果想要使得企业可以在当今激烈的市场竞争中得以生存和发展,就必须要进行现代企业质量管理。而本文中就从现代企业质量管理的重要
北京市顺义区人民政府与首都医科大学附属北京中医医院于2013年签订合作共建北京中医医院顺义医院框架协议。医院托管后实行理事会领导下的法人治理与执行院长负责制,结合医
采用访问调查和实地调查相结合的方法,明确宁夏地区野生与人工种植甘草Glycyrrhiza uralensis的资源现状,提出适合当地甘草资源保护和可持续利用对策。得出结论:常年连续采挖
随着医改的推进,对党风廉政和反腐倡廉建设工作要求的不断增强,如何建立人民满意的医院,构建廉洁敬业、仁心仁术的职业团队,构建清廉和谐的文化氛围,成为新时期医院廉洁文化
从家蚕(Bombyx mori L.)5龄幼虫肠道分离鉴定产淀粉酶细菌菌株以用作微生态制剂的研究,并对该菌α-淀粉酶基因进行克隆、序列分析及在大肠杆菌中原核表达。通过含淀粉NA培养基筛
18世纪欧洲启蒙运动的中心在法国和苏格兰,但它的影响却是全欧性的。在德意志、意大利、西班牙、奥地利等国到处可以看到启蒙思想的巨大影响,从而为西欧即将来临的革命时代,
美国当代作家唐·德里罗的小说《白噪音》充分展示了后现代社会中愈演愈烈的人类文明与自然生态的对立,真实记录了当代美国人精神上的焦虑、痛苦和危机感。《白噪音》是一部
PPP模式涉及不同的利益相关者。这些利益相关者追求的目标不同,难免在项目实施过程中出现冲突,因此合理分配收益是项目成功的重要保障。分析河北省农村基础设施建设现状,研究